alle nameref überdacht.

This commit is contained in:
2022-02-21 11:16:06 +01:00
parent 1dbdb7c63c
commit c9f9736173
15 changed files with 40 additions and 40 deletions

View File

@@ -84,7 +84,7 @@ Durch die Verwendung eines entsprechenden Kernels ist es möglich einen Datenpun
ohne dabei den eigentlichen Feature Vector errechnen zu müssen.
Es muss lediglich möglich sein,
das skalare Produkt von zwei Feature Vektoren zu bestimmen.
Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification} oder \nameref{cha:Linear Regression}) effizienter durchzuführen.
Dies ermöglicht es viele Algorithmen (z.B. \dref{cha:Linear Classification} oder \dref{cha:Linear Regression}) effizienter durchzuführen.
\section{Kernel Identities}%
@@ -99,7 +99,7 @@ Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification}
\section{Kernels and Hyperparameters}%
\label{sec:Kernels and Hyperparameters}
Die Parameter eines Kernels werden als \nomf{hyper_parameters} bezeichnet.
Wenn man den \nameref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
Wenn man den \dref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
die meist nicht benötigt werden hinzufügt,
erhält man einen Kernel,
der auch als \gls{ARD} Kernel bezeichnet wird:
@@ -120,7 +120,7 @@ Die Längenskalierung $l_k$ legt die Relevanz der jeweiligen Dimension fest (je
&= \argmax_{\nomeq{hyper_parameters}} -\frac{1}{2}\log|\bm C_{\nomeq{hyper_parameters}}| - \frac{1}{2}\bm y^T\bm C_{\nomeq{hyper_parameters}}\bm y - \frac{N}{2}\log(2\pi)
\end{align}
Leider ist diese zu optimierende Funktion nicht konvex,
weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren angesetzt werden kann
weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren (\cref{sec:Gradient Descent}) angesetzt werden kann
und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
\subsubsection{Beispiele}%
\label{ssub:Beispiele}