Bayesian Learning abgeschlossen.

2022-02-16 00:57:54 +01:00
parent 4a994c767f
commit 1dc2ea3a94
4 changed files with 74 additions and 1 deletions
--- a/chapters/Mathematische_Grundlagen/Kernel_Basics.tex
+++ b/chapters/Mathematische_Grundlagen/Kernel_Basics.tex
@@ -95,3 +95,33 @@ Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification}
    \item $\nomeq{kernel_vector}(\bm x^*) = \begin{bmatrix} \nomeq{kernel_function}(\bm x_1,\bm x^*) \\\vdots\\\nomeq{kernel_function}(\bm x_N,\bm x^*)  \end{bmatrix}
        = \begin{bmatrix} \bm\phi(\bm x_1)^T\bm\phi(x^*)\\\vdots\\\bm\phi(\bm x_N)^T \bm\phi(x^*) \end{bmatrix} = \bm\Phi_X\bm\phi(\bm x^*)$
 \end{itemize}
+
+\section{Kernels and Hyperparameters}%
+\label{sec:Kernels and Hyperparameters}
+Die Parameter eines Kernels werden als \nomf{hyper_parameters} bezeichnet.
+Wenn man den \nameref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
+die meist nicht benötigt werden hinzufügt,
+erhält man einen Kernel,
+der auch als \gls{ARD} Kernel bezeichnet wird:
+\begin{equation} \label{ARD_kernel}
+    k(\bm x_i,\bm x_j)= \lambda^{-1}\exp\left( -\sum_{k=1}^d \frac{(x_{i,k} - x_{j,k})^2}{2l_k^2} \right) + \delta_{ij}\sigma_y^2
+\end{equation}
+\begin{itemize}
+    \item $\lambda$: \tabto{2cm}a-priori Genauigkeit des Gewichtsvektors (prior precision of weight vector)
+    \item $\lambda^2$: \tabto{2cm} Rauschvarianz (noise variance) (gilt nur für $i=j$)
+    \item $l_k$:\tabto{2cm} Längenskalierung (length scale) für die Dimension $k$
+\end{itemize}
+Die Längenskalierung $l_k$ legt die Relevanz der jeweiligen Dimension fest (je größer $l_k$ desto unwichtiger $k$)
+
+\subsection{Optimization of the Hyperparameters}%
+\label{sub:Optimization of the Hyperparameters}
+\begin{align} \label{eq:hyper_parameter_optimization}
+    \nomeq{hyper_parameters}^* &= \argmax_{\nomeq{hyper_parameters}} \nomeq{gaussian_distribution}(\bm y|0,\bm C_{\nomeq{hyper_parameters}})\\
+    &= \argmax_{\nomeq{hyper_parameters}} -\frac{1}{2}\log|\bm C_{\nomeq{hyper_parameters}}| - \frac{1}{2}\bm y^T\bm C_{\nomeq{hyper_parameters}}\bm y - \frac{N}{2}\log(2\pi)
+\end{align}
+Leider ist diese zu optimierende Funktion nicht konvex,
+weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren angesetzt werden kann
+und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
+\subsubsection{Beispiele}%
+\label{ssub:Beispiele}
+({\color{red}siehe Vorlesung 07 Folie 55 ff.})