forked from TH_General/Template_Summary
53 lines
3.0 KiB
TeX
53 lines
3.0 KiB
TeX
\chapter{Kernel-Regression}%
|
|
\label{cha:Kernel-Regression}
|
|
Die Kernel Regression ist das Äquivalent der Linear \nameref{sub:Ridge Regression} (\cref{sub:Ridge Regression}),
|
|
weshalb es auch oft als Kernel Ridge Regression bezeichnet wird.
|
|
Die Linear Ridge Regression ist allerdings für den linearen Feature Space gedacht
|
|
und lässt sich nicht direkt in einem Feature Space mit unendlicher Dimension anwenden.
|
|
|
|
Mithilfe eines mathematischen Tricks (aus dem Matrix Cookook) lässt sich die Lösung der Ridge Regression so umstellen,
|
|
dass statt einer $d\times d$ Matrix lediglich eine $N\times N$ Matrix invertiert werden muss:
|
|
\begin{equation}
|
|
\bm w^* = \underbrace{(\bm\Phi^T\bm\Phi + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}}_{\text{$d\times d$ matrix inversion}}\bm\Phi^T\bm y
|
|
= \bm\Phi^T\underbrace{(\bm\Phi\bm\Phi^T + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}}_{\text{$N\times N$ matrix inversion}}\bm y
|
|
\end{equation}
|
|
Nun erlaubt es die Verwendung einer \nomf{kernel_matrix} (\cref{cha:Kernel Basics}),
|
|
die Gleichung weiter zu vereinfachen:
|
|
\begin{equation}
|
|
\bm w^* = \bm\Phi^T\underbrace{(\bm\Phi\bm\Phi^T + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}}_{\text{$N\times N$ matrix inversion}}\bm y
|
|
= \bm\Phi^T \underbrace{(\nomeq{kernel_matrix} + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}\bm y}_{\bm \alpha}
|
|
= \bm\Phi^T \bm\alpha
|
|
\end{equation}
|
|
Allerdings besteht weiterhin das Problem,
|
|
dass $\bm w^* \mathbb{R}^d$ eine potentiell unendlich große Dimension hat
|
|
und daher nicht dargestellt oder abgespeichert werden kann.
|
|
Allerdings ermöglicht es und die Beschreibung mithilfe des Kernels,
|
|
eine Funktion $f(\bm x)$,
|
|
die $\bm w^*$ verwendet auszuwerten:
|
|
\begin{equation}
|
|
f(\bm x) = \nomeq{vector_valued_function}^T\bm w^*
|
|
= \nomeq{vector_valued_function}^T\bm\Phi^T\bm\alpha
|
|
= \nomeq{kernel_vector}(\bm x)^T\bm\alpha
|
|
= \sum_i \alpha_i \nomeq{kernel_function}(\bm x_i,\bm x)
|
|
\end{equation}
|
|
Die Lösung der Kernel Ridge Regression wird daher gegeben durch:
|
|
\begin{equation} \label{eq:kernel_ridge_regression_solution}
|
|
f^*(\bm x) = \nomeq{kernel_vector}(\bm x)^T (\nomeq{kernel_matrix} + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}\bm y
|
|
\end{equation}
|
|
|
|
\section{Selecting the hyper-parameters}%
|
|
\label{sub:Selecting the hyper-parameters}
|
|
Die Auswahl der passenden Hyperparameter (z.B. \nomsym{variance} für den \nameref{sub:Gaussian Kernel}) ist ein Model Selection Problem (\cref{cha:Model Selection}).
|
|
\begin{figure}[H]
|
|
\centering
|
|
\includegraphics[width=0.5\textwidth]{gaussian_kernel_model_selection.png}
|
|
\caption{\nameref{cha:Model Selection} Problem für einen \nameref{sub:Gaussian Kernel}}
|
|
\label{fig:gaussian_kernel_model_selection}
|
|
\end{figure}
|
|
|
|
\section{Examples and comparison to \texorpdfstring{\glsxtrshort{RBF}}{\glsfmtshort{RBF}} regression}%
|
|
\label{sec:Examples and comparison to RBF regression}
|
|
\begin{center}
|
|
\includegraphics[width=.9\textwidth]{kernel_regression_comparison.pdf}
|
|
\end{center}
|