Bayesian Learning abgeschlossen.

This commit is contained in:
2022-02-16 00:57:54 +01:00
parent 4a994c767f
commit 1dc2ea3a94
4 changed files with 74 additions and 1 deletions

View File

@@ -95,3 +95,33 @@ Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification}
\item $\nomeq{kernel_vector}(\bm x^*) = \begin{bmatrix} \nomeq{kernel_function}(\bm x_1,\bm x^*) \\\vdots\\\nomeq{kernel_function}(\bm x_N,\bm x^*) \end{bmatrix}
= \begin{bmatrix} \bm\phi(\bm x_1)^T\bm\phi(x^*)\\\vdots\\\bm\phi(\bm x_N)^T \bm\phi(x^*) \end{bmatrix} = \bm\Phi_X\bm\phi(\bm x^*)$
\end{itemize}
\section{Kernels and Hyperparameters}%
\label{sec:Kernels and Hyperparameters}
Die Parameter eines Kernels werden als \nomf{hyper_parameters} bezeichnet.
Wenn man den \nameref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
die meist nicht benötigt werden hinzufügt,
erhält man einen Kernel,
der auch als \gls{ARD} Kernel bezeichnet wird:
\begin{equation} \label{ARD_kernel}
k(\bm x_i,\bm x_j)= \lambda^{-1}\exp\left( -\sum_{k=1}^d \frac{(x_{i,k} - x_{j,k})^2}{2l_k^2} \right) + \delta_{ij}\sigma_y^2
\end{equation}
\begin{itemize}
\item $\lambda$: \tabto{2cm}a-priori Genauigkeit des Gewichtsvektors (prior precision of weight vector)
\item $\lambda^2$: \tabto{2cm} Rauschvarianz (noise variance) (gilt nur für $i=j$)
\item $l_k$:\tabto{2cm} Längenskalierung (length scale) für die Dimension $k$
\end{itemize}
Die Längenskalierung $l_k$ legt die Relevanz der jeweiligen Dimension fest (je größer $l_k$ desto unwichtiger $k$)
\subsection{Optimization of the Hyperparameters}%
\label{sub:Optimization of the Hyperparameters}
\begin{align} \label{eq:hyper_parameter_optimization}
\nomeq{hyper_parameters}^* &= \argmax_{\nomeq{hyper_parameters}} \nomeq{gaussian_distribution}(\bm y|0,\bm C_{\nomeq{hyper_parameters}})\\
&= \argmax_{\nomeq{hyper_parameters}} -\frac{1}{2}\log|\bm C_{\nomeq{hyper_parameters}}| - \frac{1}{2}\bm y^T\bm C_{\nomeq{hyper_parameters}}\bm y - \frac{N}{2}\log(2\pi)
\end{align}
Leider ist diese zu optimierende Funktion nicht konvex,
weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren angesetzt werden kann
und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
\subsubsection{Beispiele}%
\label{ssub:Beispiele}
({\color{red}siehe Vorlesung 07 Folie 55 ff.})