forked from TH_General/Template_Summary
Bayesian Learning abgeschlossen.
This commit is contained in:
@@ -95,3 +95,33 @@ Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification}
|
||||
\item $\nomeq{kernel_vector}(\bm x^*) = \begin{bmatrix} \nomeq{kernel_function}(\bm x_1,\bm x^*) \\\vdots\\\nomeq{kernel_function}(\bm x_N,\bm x^*) \end{bmatrix}
|
||||
= \begin{bmatrix} \bm\phi(\bm x_1)^T\bm\phi(x^*)\\\vdots\\\bm\phi(\bm x_N)^T \bm\phi(x^*) \end{bmatrix} = \bm\Phi_X\bm\phi(\bm x^*)$
|
||||
\end{itemize}
|
||||
|
||||
\section{Kernels and Hyperparameters}%
|
||||
\label{sec:Kernels and Hyperparameters}
|
||||
Die Parameter eines Kernels werden als \nomf{hyper_parameters} bezeichnet.
|
||||
Wenn man den \nameref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
|
||||
die meist nicht benötigt werden hinzufügt,
|
||||
erhält man einen Kernel,
|
||||
der auch als \gls{ARD} Kernel bezeichnet wird:
|
||||
\begin{equation} \label{ARD_kernel}
|
||||
k(\bm x_i,\bm x_j)= \lambda^{-1}\exp\left( -\sum_{k=1}^d \frac{(x_{i,k} - x_{j,k})^2}{2l_k^2} \right) + \delta_{ij}\sigma_y^2
|
||||
\end{equation}
|
||||
\begin{itemize}
|
||||
\item $\lambda$: \tabto{2cm}a-priori Genauigkeit des Gewichtsvektors (prior precision of weight vector)
|
||||
\item $\lambda^2$: \tabto{2cm} Rauschvarianz (noise variance) (gilt nur für $i=j$)
|
||||
\item $l_k$:\tabto{2cm} Längenskalierung (length scale) für die Dimension $k$
|
||||
\end{itemize}
|
||||
Die Längenskalierung $l_k$ legt die Relevanz der jeweiligen Dimension fest (je größer $l_k$ desto unwichtiger $k$)
|
||||
|
||||
\subsection{Optimization of the Hyperparameters}%
|
||||
\label{sub:Optimization of the Hyperparameters}
|
||||
\begin{align} \label{eq:hyper_parameter_optimization}
|
||||
\nomeq{hyper_parameters}^* &= \argmax_{\nomeq{hyper_parameters}} \nomeq{gaussian_distribution}(\bm y|0,\bm C_{\nomeq{hyper_parameters}})\\
|
||||
&= \argmax_{\nomeq{hyper_parameters}} -\frac{1}{2}\log|\bm C_{\nomeq{hyper_parameters}}| - \frac{1}{2}\bm y^T\bm C_{\nomeq{hyper_parameters}}\bm y - \frac{N}{2}\log(2\pi)
|
||||
\end{align}
|
||||
Leider ist diese zu optimierende Funktion nicht konvex,
|
||||
weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren angesetzt werden kann
|
||||
und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
|
||||
\subsubsection{Beispiele}%
|
||||
\label{ssub:Beispiele}
|
||||
({\color{red}siehe Vorlesung 07 Folie 55 ff.})
|
||||
|
||||
Reference in New Issue
Block a user