Template_Summary/chapters/Kernel_Methods/Kernel-Regression.tex

53 lines
3.0 KiB
TeX

\chapter{Kernel-Regression}%
\label{cha:Kernel-Regression}
Die Kernel Regression ist das Äquivalent der Linear \nameref{sub:Ridge Regression} (\cref{sub:Ridge Regression}),
weshalb es auch oft als Kernel Ridge Regression bezeichnet wird.
Die Linear Ridge Regression ist allerdings für den linearen Feature Space gedacht
und lässt sich nicht direkt in einem Feature Space mit unendlicher Dimension anwenden.
Mithilfe eines mathematischen Tricks (aus dem Matrix Cookook) lässt sich die Lösung der Ridge Regression so umstellen,
dass statt einer $d\times d$ Matrix lediglich eine $N\times N$ Matrix invertiert werden muss:
\begin{equation}
\bm w^* = \underbrace{(\bm\Phi^T\bm\Phi + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}}_{\text{$d\times d$ matrix inversion}}\bm\Phi^T\bm y
= \bm\Phi^T\underbrace{(\bm\Phi\bm\Phi^T + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}}_{\text{$N\times N$ matrix inversion}}\bm y
\end{equation}
Nun erlaubt es die Verwendung einer \nomf{kernel_matrix} (\cref{cha:Kernel Basics}),
die Gleichung weiter zu vereinfachen:
\begin{equation}
\bm w^* = \bm\Phi^T\underbrace{(\bm\Phi\bm\Phi^T + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}}_{\text{$N\times N$ matrix inversion}}\bm y
= \bm\Phi^T \underbrace{(\nomeq{kernel_matrix} + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}\bm y}_{\bm \alpha}
= \bm\Phi^T \bm\alpha
\end{equation}
Allerdings besteht weiterhin das Problem,
dass $\bm w^* \mathbb{R}^d$ eine potentiell unendlich große Dimension hat
und daher nicht dargestellt oder abgespeichert werden kann.
Allerdings ermöglicht es und die Beschreibung mithilfe des Kernels,
eine Funktion $f(\bm x)$,
die $\bm w^*$ verwendet auszuwerten:
\begin{equation}
f(\bm x) = \nomeq{vector_valued_function}^T\bm w^*
= \nomeq{vector_valued_function}^T\bm\Phi^T\bm\alpha
= \nomeq{kernel_vector}(\bm x)^T\bm\alpha
= \sum_i \alpha_i \nomeq{kernel_function}(\bm x_i,\bm x)
\end{equation}
Die Lösung der Kernel Ridge Regression wird daher gegeben durch:
\begin{equation} \label{eq:kernel_ridge_regression_solution}
f^*(\bm x) = \nomeq{kernel_vector}(\bm x)^T (\nomeq{kernel_matrix} + \nomeq{regularization_factor}\nomeq{identity_matrix})^{-1}\bm y
\end{equation}
\section{Selecting the hyper-parameters}%
\label{sub:Selecting the hyper-parameters}
Die Auswahl der passenden Hyperparameter (z.B. \nomsym{variance} für den \nameref{sub:Gaussian Kernel}) ist ein Model Selection Problem (\cref{cha:Model Selection}).
\begin{figure}[H]
\centering
\includegraphics[width=0.5\textwidth]{gaussian_kernel_model_selection.png}
\caption{\nameref{cha:Model Selection} Problem für einen \nameref{sub:Gaussian Kernel}}
\label{fig:gaussian_kernel_model_selection}
\end{figure}
\section{Examples and comparison to \glsxtrshort{RBF} regression}%
\label{sec:Examples and comparison to RBF regression}
\begin{center}
\includegraphics[width=.9\textwidth]{kernel_regression_comparison.pdf}
\end{center}