forked from TH_General/Template_Summary
alle nameref überdacht.
This commit is contained in:
@@ -21,7 +21,7 @@ Generative Modelle sind oft sehr komplex weshalb sie nicht näher behandelt werd
|
||||
\paragraph{Discriminative Modelling}%
|
||||
\label{par:Discriminative Modelling}
|
||||
Bei diskriminativen Klassifikator-Modellen wird direkt $p(c|\bm{x})$ oder eine Prediktor-Funktion $f(\bm{x})$ ermittelt.
|
||||
Diese Art von Klassifikator-Modellierung ist einfacher als das \nameref{par:Generative Modelling}.
|
||||
Diese Art von Klassifikator-Modellierung ist einfacher als das \dref{par:Generative Modelling}.
|
||||
|
||||
\section{Binary Classification}%
|
||||
\label{sec:Binary Classification}
|
||||
@@ -140,12 +140,12 @@ Für diese Funktion kann gezeigt werden,
|
||||
dass sie konvex ist (es existiert nur ein globales Maximum).
|
||||
Allerdings handelt es sich anders als bei der linearen Regression (\cref{cha:Linear Regression}) nicht um eine \say{\gls{closed_form_solution}},
|
||||
was bedeutet,
|
||||
dass hier der \nameref{sec:Gradient Descent} für die Optimierung verwendet wird.
|
||||
dass hier der \dref{sec:Gradient Descent} für die Optimierung verwendet wird.
|
||||
|
||||
\subsubsection{Generalized Logistic Models}%
|
||||
\label{ssub:Generalized Logistic Models}
|
||||
Um das Verfahren zur Erstellung linearer Diskriminanten auch für nicht-lineare Feature-Räume zu verwenden,
|
||||
muss ein ähnlicher Trick wie bei der \nameref{sec:Generalisierung der linearen Regression} verwendet werden.
|
||||
muss ein ähnlicher Trick wie bei der \dref{sec:Generalisierung der linearen Regression} verwendet werden.
|
||||
Auch hier wird mittels einer \nomf{vector_valued_function} auf eine nicht-lineare Funktion abgebildet.
|
||||
\begin{equation} \label{eq:generlized_logisitc_regression}
|
||||
\argmax_{\bm{w}}\log\text{lik}(\bm{w},D) = \argmax_{\bm{w}} \sum_i c_i \log \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)) + (1-c_i)\log(1 - \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)))
|
||||
@@ -205,7 +205,7 @@ Man spricht daher auch von einem Batch Gradient Descent.
|
||||
\begin{equation} \label{eq:batch_gradient_descent}
|
||||
\frac{1}{n}\sum_i l(\bm{x}_i;\bm{\theta})\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{n}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)
|
||||
\end{equation}
|
||||
Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Prinzip der \nameref{sub:Monte-carlo estimation} dar.
|
||||
Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Prinzip der \dref{sub:Monte-carlo estimation} dar.
|
||||
\begin{equation}
|
||||
\mathbb{E}_{\bm{x}}\left[l(\bm{x};\bm{\theta})\right]\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \eta\mathbb{E}_{\bm{x}}\left[\nabla_{\bm{\theta}} l(\bm{x};\bm{\theta}_t)\right]
|
||||
\end{equation}
|
||||
@@ -230,7 +230,7 @@ Allerdings ist die Evaluation der Loss Function wesentlich effizienter als beim
|
||||
|
||||
\subsection{Mini-Batches}%
|
||||
\label{sub:Mini-Batches}
|
||||
Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \nameref{sub:Batch Gradient Descent} und \nameref{sub:SDG} dar.
|
||||
Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \dref{sub:Batch Gradient Descent} und \dref{sub:SDG} dar.
|
||||
Hierbei wird nicht die Loss Function für einen kleinen Teil der Datenpunkte ausgewertet.
|
||||
Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete \gls{GPU} angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
|
||||
aber auch zielgerichteter als beim \nameref{sub:SDG}.
|
||||
|
||||
@@ -55,8 +55,8 @@ Wie in \cref{sec:Over- vs. Underfitting} und \cref{sec:True Risk vs. Empirical R
|
||||
ist die Empirical Risk kein guter Maßstab für die Bewertung von Modellen.
|
||||
Daher werden andere Methoden benötigt um Modelle zu bewerten.
|
||||
|
||||
\subsection{Hold"=out Mehtod}%
|
||||
\label{sub:Hold-out Mehtod}
|
||||
\subsection{Hold"=out Method}%
|
||||
\label{sub:Hold-out Method}
|
||||
Bei der Hold"=out Methode werden die gegebenen Datenpunkte in einen Trainings"~ und einen Validierungsdatensatz unterteilt.
|
||||
Letzterer Wird dafür genutzt,
|
||||
die trainierten Modelle zu bewerten.
|
||||
@@ -80,7 +80,7 @@ Diese Methode hat allerdings zwei Nachteile:
|
||||
|
||||
\subsection{Cross Validation}%
|
||||
\label{sub:Cross Validation}
|
||||
Um die Nachteile der \nameref{sub:Hold-out Mehtod} zu umgehen wird meist die Cross Validation verwendet
|
||||
Um die Nachteile der \dref{sub:Hold-out Method} zu umgehen wird meist die Cross Validation verwendet
|
||||
\begin{mybox}
|
||||
\begin{wrapfigure}{r}{.5\linewidth}
|
||||
\centering
|
||||
|
||||
Reference in New Issue
Block a user