forked from TH_General/Template_Summary
alle nameref überdacht.
This commit is contained in:
parent
1dbdb7c63c
commit
c9f9736173
@ -2,7 +2,7 @@
|
|||||||
|
|
||||||
##TODO:
|
##TODO:
|
||||||
- [x] alle ?? beseitigen
|
- [x] alle ?? beseitigen
|
||||||
- [ ] für alle \nameref prüfen, ob eine richtige Referenz nachfolgen sollte.
|
- [x] für alle \nameref prüfen, ob eine richtige Referenz nachfolgen sollte.
|
||||||
- [ ] Folien aus der Vorlesung, auf die in der Zusammenfassung verwiesen werden einfach in den Anhang packen
|
- [ ] Folien aus der Vorlesung, auf die in der Zusammenfassung verwiesen werden einfach in den Anhang packen
|
||||||
|
|
||||||
## Notice
|
## Notice
|
||||||
|
@ -33,7 +33,7 @@ Daher ist $p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ nur noch von den gegeben
|
|||||||
\section{Example: Gaussian Distribution}%
|
\section{Example: Gaussian Distribution}%
|
||||||
\label{sec:Example: Gaussian Distribution}
|
\label{sec:Example: Gaussian Distribution}
|
||||||
Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
|
Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
|
||||||
kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
|
kann die \dref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
|
||||||
\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
|
\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
|
||||||
p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
|
p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
|
||||||
=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
||||||
@ -42,7 +42,7 @@ Hieraus ergibt sich für einen ganzen Datensatz $\bm X$:
|
|||||||
\begin{equation} \label{eq:gaussian_distribution_dataset}
|
\begin{equation} \label{eq:gaussian_distribution_dataset}
|
||||||
p(\bm X|\nomeq{mean},\sigma)=\prod_i p(x_i|\nomeq{mean},\sigma) = \frac{1}{(2\pi\nomeq{variance})^{\frac{N}{2}}} \exp\left\{ -\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} \right\}
|
p(\bm X|\nomeq{mean},\sigma)=\prod_i p(x_i|\nomeq{mean},\sigma) = \frac{1}{(2\pi\nomeq{variance})^{\frac{N}{2}}} \exp\left\{ -\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} \right\}
|
||||||
\end{equation}
|
\end{equation}
|
||||||
Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden:
|
Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens (\cref{sub:Completing the square}) können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden:
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
|
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
|
||||||
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
|
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
|
||||||
@ -132,7 +132,7 @@ Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachun
|
|||||||
|
|
||||||
\subsection{Anwendungsbeispiel: Regression}%
|
\subsection{Anwendungsbeispiel: Regression}%
|
||||||
\label{sub:MAP:Anwendungsbeispiel: Regression}
|
\label{sub:MAP:Anwendungsbeispiel: Regression}
|
||||||
Läuft am Ende auf \nameref{sub:Ridge Regression} hinaus.
|
Läuft am Ende auf \dref{sub:Ridge Regression} hinaus.
|
||||||
Soll den Zusammenhang beider Methoden zeigen.
|
Soll den Zusammenhang beider Methoden zeigen.
|
||||||
{\color{red} siehe Vorlesung 07 Folien 20-22}
|
{\color{red} siehe Vorlesung 07 Folien 20-22}
|
||||||
|
|
||||||
|
@ -31,18 +31,18 @@ Anschließend erfolgt die Regression nach den Schritten des \nameref{cha:Bayesia
|
|||||||
p(y^*|\bm x^*,\bm X,\bm y) &= \int p(y^*|\bm w,\bm x^*)p(\bm w|\bm X,\bm y)d\bm w \\
|
p(y^*|\bm x^*,\bm X,\bm y) &= \int p(y^*|\bm w,\bm x^*)p(\bm w|\bm X,\bm y)d\bm w \\
|
||||||
&= \int \nomeq{gaussian_distribution}(y_*|\phi_*^T\bm w,\sigma_{\bm y}^2)\nomeq{gaussian_distribution}(\bm w|\bm\mu_{\bm w|\bm X,\bm y},\nomeq{covariance}_{\bm w|\bm X,\bm y}) d\bm w
|
&= \int \nomeq{gaussian_distribution}(y_*|\phi_*^T\bm w,\sigma_{\bm y}^2)\nomeq{gaussian_distribution}(\bm w|\bm\mu_{\bm w|\bm X,\bm y},\nomeq{covariance}_{\bm w|\bm X,\bm y}) d\bm w
|
||||||
\end{align}
|
\end{align}
|
||||||
Um diese Gleichung zu lösen kann die \nameref{sec:Gaussian Propagation} (\cref{sec:Gaussian Propagation}) verwendet werden:
|
Um diese Gleichung zu lösen kann die \dref{sec:Gaussian Propagation} verwendet werden:
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
\item $\nomeq{mean}(\bm x^*) = \phi(\bm x^*)^T(\bm\Phi^T\bm\Phi + \nomeq{regularization_factor}\sigma_{\bm y}^2\nomeq{identity_matrix})^{-1}\bm\Phi^T\bm y$
|
\item $\nomeq{mean}(\bm x^*) = \phi(\bm x^*)^T(\bm\Phi^T\bm\Phi + \nomeq{regularization_factor}\sigma_{\bm y}^2\nomeq{identity_matrix})^{-1}\bm\Phi^T\bm y$
|
||||||
\item $\nomeq{variance}(\bm x^*) = \sigma_{\bm y}^2(1+\phi(\bm x^*)^T(\bm\Phi^T\bm\Phi + \nomeq{regularization_factor}\sigma_{\bm y}^2\nomeq{identity_matrix})^{-1}\phi(\bm x^*))$
|
\item $\nomeq{variance}(\bm x^*) = \sigma_{\bm y}^2(1+\phi(\bm x^*)^T(\bm\Phi^T\bm\Phi + \nomeq{regularization_factor}\sigma_{\bm y}^2\nomeq{identity_matrix})^{-1}\phi(\bm x^*))$
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
\end{enumerate}
|
\end{enumerate}
|
||||||
Es fällt auf, dass $\nomeq{mean}(\bm{x^*})$ sich im Vergleich zur \nameref{sub:Ridge Regression} nicht verändert hat.
|
Es fällt auf, dass $\nomeq{mean}(\bm{x^*})$ sich im Vergleich zur \dref{sub:Ridge Regression} nicht verändert hat.
|
||||||
Allerdings ist $\nomeq{variance}(\bm x^*)$ jetzt abhängig von den Eingangsdaten.
|
Allerdings ist $\nomeq{variance}(\bm x^*)$ jetzt abhängig von den Eingangsdaten.
|
||||||
|
|
||||||
\section{Gaussian Processes}%
|
\section{Gaussian Processes}%
|
||||||
\label{sec:Gaussian Processes}
|
\label{sec:Gaussian Processes}
|
||||||
Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version der \nameref{sec:Bayesian Linear Regression} ({\color{red}Beweis: Vorlesung 07 Folie 44 ff.}).
|
Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version der \dref{sec:Bayesian Linear Regression} ({\color{red}Beweis: Vorlesung 07 Folie 44 ff.}).
|
||||||
\begin{equation} \label{eq:guassian_process_general_definition}
|
\begin{equation} \label{eq:guassian_process_general_definition}
|
||||||
f(\bm x)\sim\nomeq{gaussian_process}(\underbrace{m(\bm x)}_{\text{mean function}},\underbrace{k(\bm x,\bm x')}_{\text{covariance function}})
|
f(\bm x)\sim\nomeq{gaussian_process}(\underbrace{m(\bm x)}_{\text{mean function}},\underbrace{k(\bm x,\bm x')}_{\text{covariance function}})
|
||||||
\end{equation}
|
\end{equation}
|
||||||
|
@ -21,7 +21,7 @@ Generative Modelle sind oft sehr komplex weshalb sie nicht näher behandelt werd
|
|||||||
\paragraph{Discriminative Modelling}%
|
\paragraph{Discriminative Modelling}%
|
||||||
\label{par:Discriminative Modelling}
|
\label{par:Discriminative Modelling}
|
||||||
Bei diskriminativen Klassifikator-Modellen wird direkt $p(c|\bm{x})$ oder eine Prediktor-Funktion $f(\bm{x})$ ermittelt.
|
Bei diskriminativen Klassifikator-Modellen wird direkt $p(c|\bm{x})$ oder eine Prediktor-Funktion $f(\bm{x})$ ermittelt.
|
||||||
Diese Art von Klassifikator-Modellierung ist einfacher als das \nameref{par:Generative Modelling}.
|
Diese Art von Klassifikator-Modellierung ist einfacher als das \dref{par:Generative Modelling}.
|
||||||
|
|
||||||
\section{Binary Classification}%
|
\section{Binary Classification}%
|
||||||
\label{sec:Binary Classification}
|
\label{sec:Binary Classification}
|
||||||
@ -140,12 +140,12 @@ Für diese Funktion kann gezeigt werden,
|
|||||||
dass sie konvex ist (es existiert nur ein globales Maximum).
|
dass sie konvex ist (es existiert nur ein globales Maximum).
|
||||||
Allerdings handelt es sich anders als bei der linearen Regression (\cref{cha:Linear Regression}) nicht um eine \say{\gls{closed_form_solution}},
|
Allerdings handelt es sich anders als bei der linearen Regression (\cref{cha:Linear Regression}) nicht um eine \say{\gls{closed_form_solution}},
|
||||||
was bedeutet,
|
was bedeutet,
|
||||||
dass hier der \nameref{sec:Gradient Descent} für die Optimierung verwendet wird.
|
dass hier der \dref{sec:Gradient Descent} für die Optimierung verwendet wird.
|
||||||
|
|
||||||
\subsubsection{Generalized Logistic Models}%
|
\subsubsection{Generalized Logistic Models}%
|
||||||
\label{ssub:Generalized Logistic Models}
|
\label{ssub:Generalized Logistic Models}
|
||||||
Um das Verfahren zur Erstellung linearer Diskriminanten auch für nicht-lineare Feature-Räume zu verwenden,
|
Um das Verfahren zur Erstellung linearer Diskriminanten auch für nicht-lineare Feature-Räume zu verwenden,
|
||||||
muss ein ähnlicher Trick wie bei der \nameref{sec:Generalisierung der linearen Regression} verwendet werden.
|
muss ein ähnlicher Trick wie bei der \dref{sec:Generalisierung der linearen Regression} verwendet werden.
|
||||||
Auch hier wird mittels einer \nomf{vector_valued_function} auf eine nicht-lineare Funktion abgebildet.
|
Auch hier wird mittels einer \nomf{vector_valued_function} auf eine nicht-lineare Funktion abgebildet.
|
||||||
\begin{equation} \label{eq:generlized_logisitc_regression}
|
\begin{equation} \label{eq:generlized_logisitc_regression}
|
||||||
\argmax_{\bm{w}}\log\text{lik}(\bm{w},D) = \argmax_{\bm{w}} \sum_i c_i \log \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)) + (1-c_i)\log(1 - \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)))
|
\argmax_{\bm{w}}\log\text{lik}(\bm{w},D) = \argmax_{\bm{w}} \sum_i c_i \log \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)) + (1-c_i)\log(1 - \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)))
|
||||||
@ -205,7 +205,7 @@ Man spricht daher auch von einem Batch Gradient Descent.
|
|||||||
\begin{equation} \label{eq:batch_gradient_descent}
|
\begin{equation} \label{eq:batch_gradient_descent}
|
||||||
\frac{1}{n}\sum_i l(\bm{x}_i;\bm{\theta})\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{n}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)
|
\frac{1}{n}\sum_i l(\bm{x}_i;\bm{\theta})\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{n}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)
|
||||||
\end{equation}
|
\end{equation}
|
||||||
Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Prinzip der \nameref{sub:Monte-carlo estimation} dar.
|
Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Prinzip der \dref{sub:Monte-carlo estimation} dar.
|
||||||
\begin{equation}
|
\begin{equation}
|
||||||
\mathbb{E}_{\bm{x}}\left[l(\bm{x};\bm{\theta})\right]\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \eta\mathbb{E}_{\bm{x}}\left[\nabla_{\bm{\theta}} l(\bm{x};\bm{\theta}_t)\right]
|
\mathbb{E}_{\bm{x}}\left[l(\bm{x};\bm{\theta})\right]\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \eta\mathbb{E}_{\bm{x}}\left[\nabla_{\bm{\theta}} l(\bm{x};\bm{\theta}_t)\right]
|
||||||
\end{equation}
|
\end{equation}
|
||||||
@ -230,7 +230,7 @@ Allerdings ist die Evaluation der Loss Function wesentlich effizienter als beim
|
|||||||
|
|
||||||
\subsection{Mini-Batches}%
|
\subsection{Mini-Batches}%
|
||||||
\label{sub:Mini-Batches}
|
\label{sub:Mini-Batches}
|
||||||
Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \nameref{sub:Batch Gradient Descent} und \nameref{sub:SDG} dar.
|
Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \dref{sub:Batch Gradient Descent} und \dref{sub:SDG} dar.
|
||||||
Hierbei wird nicht die Loss Function für einen kleinen Teil der Datenpunkte ausgewertet.
|
Hierbei wird nicht die Loss Function für einen kleinen Teil der Datenpunkte ausgewertet.
|
||||||
Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete \gls{GPU} angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
|
Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete \gls{GPU} angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
|
||||||
aber auch zielgerichteter als beim \nameref{sub:SDG}.
|
aber auch zielgerichteter als beim \nameref{sub:SDG}.
|
||||||
|
@ -55,8 +55,8 @@ Wie in \cref{sec:Over- vs. Underfitting} und \cref{sec:True Risk vs. Empirical R
|
|||||||
ist die Empirical Risk kein guter Maßstab für die Bewertung von Modellen.
|
ist die Empirical Risk kein guter Maßstab für die Bewertung von Modellen.
|
||||||
Daher werden andere Methoden benötigt um Modelle zu bewerten.
|
Daher werden andere Methoden benötigt um Modelle zu bewerten.
|
||||||
|
|
||||||
\subsection{Hold"=out Mehtod}%
|
\subsection{Hold"=out Method}%
|
||||||
\label{sub:Hold-out Mehtod}
|
\label{sub:Hold-out Method}
|
||||||
Bei der Hold"=out Methode werden die gegebenen Datenpunkte in einen Trainings"~ und einen Validierungsdatensatz unterteilt.
|
Bei der Hold"=out Methode werden die gegebenen Datenpunkte in einen Trainings"~ und einen Validierungsdatensatz unterteilt.
|
||||||
Letzterer Wird dafür genutzt,
|
Letzterer Wird dafür genutzt,
|
||||||
die trainierten Modelle zu bewerten.
|
die trainierten Modelle zu bewerten.
|
||||||
@ -80,7 +80,7 @@ Diese Methode hat allerdings zwei Nachteile:
|
|||||||
|
|
||||||
\subsection{Cross Validation}%
|
\subsection{Cross Validation}%
|
||||||
\label{sub:Cross Validation}
|
\label{sub:Cross Validation}
|
||||||
Um die Nachteile der \nameref{sub:Hold-out Mehtod} zu umgehen wird meist die Cross Validation verwendet
|
Um die Nachteile der \dref{sub:Hold-out Method} zu umgehen wird meist die Cross Validation verwendet
|
||||||
\begin{mybox}
|
\begin{mybox}
|
||||||
\begin{wrapfigure}{r}{.5\linewidth}
|
\begin{wrapfigure}{r}{.5\linewidth}
|
||||||
\centering
|
\centering
|
||||||
|
@ -6,7 +6,7 @@
|
|||||||
\caption{Auto-Encoder}
|
\caption{Auto-Encoder}
|
||||||
\label{fig:auto-encoder}
|
\label{fig:auto-encoder}
|
||||||
\end{wrapfigure}
|
\end{wrapfigure}
|
||||||
Auto-Encoder sind \nameref{sec:Feedforward Neural Networks} (\cref{sec:Feedforward Neural Networks}),
|
Auto-Encoder sind \dref{sec:Feedforward Neural Networks},
|
||||||
welche auf Basis einer Eingabe $\bm x$ $\bm x$ vorhersagen.
|
welche auf Basis einer Eingabe $\bm x$ $\bm x$ vorhersagen.
|
||||||
Die Besonderheit liegt darin,
|
Die Besonderheit liegt darin,
|
||||||
dass ein Auto-Encoder ein Bottelneck-Layer enthält,
|
dass ein Auto-Encoder ein Bottelneck-Layer enthält,
|
||||||
|
@ -16,7 +16,7 @@ um die Wahrscheinlichkeitsverteilung einer Klasse zu Modellieren.
|
|||||||
\section{Parametric Models}%
|
\section{Parametric Models}%
|
||||||
\label{sec:Parametric Models}
|
\label{sec:Parametric Models}
|
||||||
Eine Form der Modellierung ist bereits aus vorhergegangenen Algorithmen bekannt.
|
Eine Form der Modellierung ist bereits aus vorhergegangenen Algorithmen bekannt.
|
||||||
Die Wahrscheinlichkeitsverteilung kann durch ein parametrisiertes Modell (z.B. \nameref{sub:Gaussian Distribution}(\cref{sub:Gaussian Distribution}))
|
Die Wahrscheinlichkeitsverteilung kann durch ein parametrisiertes Modell (z.B. \dref{sub:Gaussian Distribution})
|
||||||
approximiert werden.
|
approximiert werden.
|
||||||
Diese Methode eignet sich allerdings nicht für Datenverteilungen,
|
Diese Methode eignet sich allerdings nicht für Datenverteilungen,
|
||||||
die weit von der Grundannahme (z.B. normalverteilte Datenpunkte) des parametrischen Modells entfernt sind.
|
die weit von der Grundannahme (z.B. normalverteilte Datenpunkte) des parametrischen Modells entfernt sind.
|
||||||
@ -38,7 +38,7 @@ Bei Histogrammen werden die Daten in gleichgroßen Bins gesammelt.
|
|||||||
Anschließend bietet die Anzahl der Datenpunkte in den jeweiligen Bins eine generalisierte Repräsentation der Dichteverteilung.
|
Anschließend bietet die Anzahl der Datenpunkte in den jeweiligen Bins eine generalisierte Repräsentation der Dichteverteilung.
|
||||||
Histogramme bekommen dann Schwierigkeiten,
|
Histogramme bekommen dann Schwierigkeiten,
|
||||||
wenn sie hochdimensionale Daten repräsentieren sollen,
|
wenn sie hochdimensionale Daten repräsentieren sollen,
|
||||||
da hier der \nameref{sec:Curse of Dimensionality}(\cref{sec:Curse of Dimensionality}) einsetzt.
|
da hier der \dref{sec:Curse of Dimensionality} einsetzt.
|
||||||
Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.
|
Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.
|
||||||
|
|
||||||
Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
|
Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
|
||||||
@ -106,7 +106,7 @@ Auch alle nicht-parametrisierten Modelle haben irgendeiner Form ein Model-Select
|
|||||||
\item \nameref{sub:Kernel Density Estimation}: Kernel Bandwidth $h$
|
\item \nameref{sub:Kernel Density Estimation}: Kernel Bandwidth $h$
|
||||||
\item \nameref{sub:K-nearest Neighbor Density Estimation}: Anzahl der Nachbarn $K$
|
\item \nameref{sub:K-nearest Neighbor Density Estimation}: Anzahl der Nachbarn $K$
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
Meistens wird versucht das Modell mithilfe von \nameref{sub:Cross Validation} (\cref{sub:Cross Validation}) zu lösen.
|
Meistens wird versucht das Modell mithilfe von \dref{sub:Cross Validation} zu lösen.
|
||||||
|
|
||||||
\section{Mixture Models}%
|
\section{Mixture Models}%
|
||||||
\label{sec:Mixture Models}
|
\label{sec:Mixture Models}
|
||||||
@ -137,7 +137,7 @@ Die \glslink{marginal}{marginal} Log-Likelihood (\cref{sec:Example: Gaussian Dis
|
|||||||
\mathcal L = \log L(\bm\theta) = \sum_{i=1}^N \log \underbrace{p_{\bm\theta}(\bm x_i)}_{\text{marginal}}
|
\mathcal L = \log L(\bm\theta) = \sum_{i=1}^N \log \underbrace{p_{\bm\theta}(\bm x_i)}_{\text{marginal}}
|
||||||
= \sum_{i=1}^N \log \underbrace{\left( \sum_{k=1}^K \pi_k \nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k) \right)}_{\text{non-exponential family}}
|
= \sum_{i=1}^N \log \underbrace{\left( \sum_{k=1}^K \pi_k \nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k) \right)}_{\text{non-exponential family}}
|
||||||
\end{equation}
|
\end{equation}
|
||||||
Um einen \nameref{cha:Gradient Descent} (\cref{cha:Gradient Descent}) auf diesen Daten durchzuführen,
|
Um einen \dref{cha:Gradient Descent} auf diesen Daten durchzuführen,
|
||||||
muss geprüft werden,
|
muss geprüft werden,
|
||||||
ob sich diese Funktion differenzieren lässt.
|
ob sich diese Funktion differenzieren lässt.
|
||||||
\begin{align} \label{eq:GMM_gradient_descent}
|
\begin{align} \label{eq:GMM_gradient_descent}
|
||||||
@ -148,7 +148,7 @@ ob sich diese Funktion differenzieren lässt.
|
|||||||
&= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
|
&= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
|
||||||
\end{align}
|
\end{align}
|
||||||
Dies zeigt,
|
Dies zeigt,
|
||||||
dass der Einsatz des \nameref{cha:Gradient Descent} Verfahrens für \glspl{GMM} zwar möglich ist,
|
dass der Einsatz des \nameref{cha:Gradient Descent} Verfahrens (\cref{cha:Gradient Descent}) für \glspl{GMM} zwar möglich ist,
|
||||||
aber der Gradient von allen anderen Komponenten abhängig ist.
|
aber der Gradient von allen anderen Komponenten abhängig ist.
|
||||||
Zudem hat er keine \gls{closed_form_solution},
|
Zudem hat er keine \gls{closed_form_solution},
|
||||||
weshalb kein anderes (in der Vorlesung behandeltes) Verfahren als der \nameref{cha:Gradient Descent} in Frage kommt.
|
weshalb kein anderes (in der Vorlesung behandeltes) Verfahren als der \nameref{cha:Gradient Descent} in Frage kommt.
|
||||||
|
@ -5,7 +5,7 @@ einen Datensatz mit vielen Features (hohe Dimensionalität) zu vereinfachen.
|
|||||||
Dies ist vor allem dann hilfreich,
|
Dies ist vor allem dann hilfreich,
|
||||||
wenn die Daten visualisiert werden.
|
wenn die Daten visualisiert werden.
|
||||||
Zudem ist es ein guter Preprocessing Schritt für andere ML-Algorihmen.
|
Zudem ist es ein guter Preprocessing Schritt für andere ML-Algorihmen.
|
||||||
Ein Beispiel hierfür ist die \nameref{cha:Linear Regression},
|
Ein Beispiel hierfür ist die \dref{cha:Linear Regression},
|
||||||
bei welcher eine Invertierung einer Matrix von nöten ist,
|
bei welcher eine Invertierung einer Matrix von nöten ist,
|
||||||
deren Größe von der Dimension der Datenpunkte abhängt.
|
deren Größe von der Dimension der Datenpunkte abhängt.
|
||||||
Ist diese Dimension reduziert ergibt sich daraus logischerweise ein geringerer Rechenaufwand.
|
Ist diese Dimension reduziert ergibt sich daraus logischerweise ein geringerer Rechenaufwand.
|
||||||
@ -96,7 +96,7 @@ ist definiert als
|
|||||||
Die \say{second principal direction} ist der Basisvektor,
|
Die \say{second principal direction} ist der Basisvektor,
|
||||||
welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.
|
welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.
|
||||||
|
|
||||||
Das Maximierungsproblem kann in eine \nameref{cha:Constraint Optimization} (\cref{cha:Constraint Optimization}) umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
|
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
|
||||||
\begin{equation} \label{eq:PCA_constrained_optimization}
|
\begin{equation} \label{eq:PCA_constrained_optimization}
|
||||||
\bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
|
\bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
|
||||||
\end{equation}
|
\end{equation}
|
||||||
|
@ -15,11 +15,11 @@ Das Ziel ist es die (\glslink{marginal}{marginal}) Log-Likelihood
|
|||||||
\end{equation}
|
\end{equation}
|
||||||
zu optimieren.
|
zu optimieren.
|
||||||
Zwei Verfahren für die Durchführung der \gls{EM} sind bekannt,
|
Zwei Verfahren für die Durchführung der \gls{EM} sind bekannt,
|
||||||
wobei in der Vorlesung nur auf die \nameref{sec:Decomposition in lower-bound and KL-term} eingegangen wird.
|
wobei in der Vorlesung nur auf die \dref{sec:Decomposition in lower-bound and KL-term} eingegangen wird.
|
||||||
Bei der \gls{EM} handelt es sich um ein Verfahren,
|
Bei der \gls{EM} handelt es sich um ein Verfahren,
|
||||||
welches lediglich ein lokales Optimum findet,
|
welches lediglich ein lokales Optimum findet,
|
||||||
weshalb die Initialisierung sehr wichtig ist.
|
weshalb die Initialisierung sehr wichtig ist.
|
||||||
Hierbei werden die Cluster-Mittelpunkte meist über den \nameref{sec:K-Means Algorithm}us approximiert und ein fester Wert für die Kovarianzen gewählt.
|
Hierbei werden die Cluster-Mittelpunkte meist über den \dref{sec:K-Means Algorithm}us approximiert und ein fester Wert für die Kovarianzen gewählt.
|
||||||
|
|
||||||
\section{Decomposition in lower-bound and \glstopshort{KL}-term}%
|
\section{Decomposition in lower-bound and \glstopshort{KL}-term}%
|
||||||
\label{sec:Decomposition in lower-bound and KL-term}
|
\label{sec:Decomposition in lower-bound and KL-term}
|
||||||
@ -52,7 +52,7 @@ welches die \gls{KL} Divergenz (\cref{sec:KL-Divergenz}) minimiert.
|
|||||||
\begin{equation} \label{eq:expectation_step}
|
\begin{equation} \label{eq:expectation_step}
|
||||||
q(z) = \argmin_q \nomeq{kl_divergence}(q(z)\|p(z|\bm x))
|
q(z) = \argmin_q \nomeq{kl_divergence}(q(z)\|p(z|\bm x))
|
||||||
\end{equation}
|
\end{equation}
|
||||||
Für diskrete $z$ (z.B. bei \nameref{sec:Mixture Models}) hat dieses Problem eine \gls{closed_form_solution}.
|
Für diskrete $z$ (z.B. bei \dref{sec:Mixture Models}) hat dieses Problem eine \gls{closed_form_solution}.
|
||||||
\begin{equation} \label{eq:expectation_step_closed_form_solution}
|
\begin{equation} \label{eq:expectation_step_closed_form_solution}
|
||||||
q(z) = p(z|\bm x,\bm\theta_{\text{old}}) = \frac{p(\bm x,z|\bm\theta_{\text{old}})}{\sum_z p(\bm x,z|\bm\theta_{\text{old}})}
|
q(z) = p(z|\bm x,\bm\theta_{\text{old}}) = \frac{p(\bm x,z|\bm\theta_{\text{old}})}{\sum_z p(\bm x,z|\bm\theta_{\text{old}})}
|
||||||
\end{equation}
|
\end{equation}
|
||||||
@ -94,7 +94,7 @@ kann nun die Lower-Bound maximiert werden um im Gegenzug die gesamte Log-Likelih
|
|||||||
\end{enumerate}
|
\end{enumerate}
|
||||||
\end{mybox}
|
\end{mybox}
|
||||||
Aus \cref{sub:GMMs} ist bekannt,
|
Aus \cref{sub:GMMs} ist bekannt,
|
||||||
dass die \glslink{marginal}{marginal} Log-Likelihood nicht gut für den \nameref{cha:Gradient Descent} (\cref{cha:Gradient Descent}) geeignet ist.
|
dass die \glslink{marginal}{marginal} Log-Likelihood nicht gut für den \dref{cha:Gradient Descent} geeignet ist.
|
||||||
Das Problem ist vor allem deshalb schwer zu lösen,
|
Das Problem ist vor allem deshalb schwer zu lösen,
|
||||||
da nicht bekannt ist,
|
da nicht bekannt ist,
|
||||||
zu welcher Teil-Komponente des \gls{GMM} ein einzelner Datenpunkt gehört.
|
zu welcher Teil-Komponente des \gls{GMM} ein einzelner Datenpunkt gehört.
|
||||||
@ -127,6 +127,7 @@ bis das \gls{GMM} konvergiert.
|
|||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\section{\glstopshort{EM} for Dimensionality Reduction}%
|
\section{\glstopshort{EM} for Dimensionality Reduction}%
|
||||||
|
\label{sec:EM for Dimensionality Reduction}
|
||||||
\begin{mybox}
|
\begin{mybox}
|
||||||
\textbf{\Large \glsxtrshort{EM} for \nameref{cha:Dimensionality Reduction}} \\
|
\textbf{\Large \glsxtrshort{EM} for \nameref{cha:Dimensionality Reduction}} \\
|
||||||
\begin{enumerate}
|
\begin{enumerate}
|
||||||
@ -150,11 +151,10 @@ bis das \gls{GMM} konvergiert.
|
|||||||
\end{align}
|
\end{align}
|
||||||
\end{enumerate}
|
\end{enumerate}
|
||||||
\end{mybox}
|
\end{mybox}
|
||||||
\label{sec:EM for Dimensionality Reduction}
|
Das \gls{EM} Verfahren kann auch zur \dref{cha:Dimensionality Reduction} verwendet werden.
|
||||||
Das \gls{EM} Verfahren kann auch zur \nameref{cha:Dimensionality Reduction} (\cref{cha:Dimensionality Reduction}) verwendet werden.
|
Allerdings wird dieses Verfahren seit der Entdeckung der \dref{sub:PCA} kaum noch verwendet.
|
||||||
Allerdings wird dieses Verfahren seit der Entdeckung der \nameref{sub:PCA} (\cref{sub:PCA}) kaum noch verwendet.
|
|
||||||
|
|
||||||
Die \nameref{cha:Dimensionality Reduction} lässt sich als \gls{latent_variable_model} formulieren:
|
Die \dref{cha:Dimensionality Reduction} lässt sich als \gls{latent_variable_model} formulieren:
|
||||||
\begin{equation} \label{eq:dimensionality_reduction_latend_variable_model}
|
\begin{equation} \label{eq:dimensionality_reduction_latend_variable_model}
|
||||||
\bm x = \bm W \bm z + \bm\mu + \bm\epsilon
|
\bm x = \bm W \bm z + \bm\mu + \bm\epsilon
|
||||||
\end{equation}
|
\end{equation}
|
||||||
|
@ -1,6 +1,6 @@
|
|||||||
\chapter{Kernel-Regression}%
|
\chapter{Kernel-Regression}%
|
||||||
\label{cha:Kernel-Regression}
|
\label{cha:Kernel-Regression}
|
||||||
Die Kernel Regression ist das Äquivalent der Linear \nameref{sub:Ridge Regression} (\cref{sub:Ridge Regression}),
|
Die Kernel Regression ist das Äquivalent der Linear \dref{sub:Ridge Regression},
|
||||||
weshalb es auch oft als Kernel Ridge Regression bezeichnet wird.
|
weshalb es auch oft als Kernel Ridge Regression bezeichnet wird.
|
||||||
Die Linear Ridge Regression ist allerdings für den linearen Feature Space gedacht
|
Die Linear Ridge Regression ist allerdings für den linearen Feature Space gedacht
|
||||||
und lässt sich nicht direkt in einem Feature Space mit unendlicher Dimension anwenden.
|
und lässt sich nicht direkt in einem Feature Space mit unendlicher Dimension anwenden.
|
||||||
@ -37,7 +37,7 @@ Die Lösung der Kernel Ridge Regression wird daher gegeben durch:
|
|||||||
|
|
||||||
\section{Selecting the hyper-parameters}%
|
\section{Selecting the hyper-parameters}%
|
||||||
\label{sub:Selecting the hyper-parameters}
|
\label{sub:Selecting the hyper-parameters}
|
||||||
Die Auswahl der passenden Hyperparameter (z.B. \nomsym{variance} für den \nameref{sub:Gaussian Kernel}) ist ein Model Selection Problem (\cref{cha:Model Selection}).
|
Die Auswahl der passenden Hyperparameter (z.B. \nomsym{variance} für den \dref{sub:Gaussian Kernel}) ist ein Model Selection Problem (\cref{cha:Model Selection}).
|
||||||
\begin{figure}[H]
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
\includegraphics[width=0.5\textwidth]{gaussian_kernel_model_selection.png}
|
\includegraphics[width=0.5\textwidth]{gaussian_kernel_model_selection.png}
|
||||||
|
@ -84,7 +84,7 @@ Durch die Verwendung eines entsprechenden Kernels ist es möglich einen Datenpun
|
|||||||
ohne dabei den eigentlichen Feature Vector errechnen zu müssen.
|
ohne dabei den eigentlichen Feature Vector errechnen zu müssen.
|
||||||
Es muss lediglich möglich sein,
|
Es muss lediglich möglich sein,
|
||||||
das skalare Produkt von zwei Feature Vektoren zu bestimmen.
|
das skalare Produkt von zwei Feature Vektoren zu bestimmen.
|
||||||
Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification} oder \nameref{cha:Linear Regression}) effizienter durchzuführen.
|
Dies ermöglicht es viele Algorithmen (z.B. \dref{cha:Linear Classification} oder \dref{cha:Linear Regression}) effizienter durchzuführen.
|
||||||
|
|
||||||
|
|
||||||
\section{Kernel Identities}%
|
\section{Kernel Identities}%
|
||||||
@ -99,7 +99,7 @@ Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification}
|
|||||||
\section{Kernels and Hyperparameters}%
|
\section{Kernels and Hyperparameters}%
|
||||||
\label{sec:Kernels and Hyperparameters}
|
\label{sec:Kernels and Hyperparameters}
|
||||||
Die Parameter eines Kernels werden als \nomf{hyper_parameters} bezeichnet.
|
Die Parameter eines Kernels werden als \nomf{hyper_parameters} bezeichnet.
|
||||||
Wenn man den \nameref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
|
Wenn man den \dref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
|
||||||
die meist nicht benötigt werden hinzufügt,
|
die meist nicht benötigt werden hinzufügt,
|
||||||
erhält man einen Kernel,
|
erhält man einen Kernel,
|
||||||
der auch als \gls{ARD} Kernel bezeichnet wird:
|
der auch als \gls{ARD} Kernel bezeichnet wird:
|
||||||
@ -120,7 +120,7 @@ Die Längenskalierung $l_k$ legt die Relevanz der jeweiligen Dimension fest (je
|
|||||||
&= \argmax_{\nomeq{hyper_parameters}} -\frac{1}{2}\log|\bm C_{\nomeq{hyper_parameters}}| - \frac{1}{2}\bm y^T\bm C_{\nomeq{hyper_parameters}}\bm y - \frac{N}{2}\log(2\pi)
|
&= \argmax_{\nomeq{hyper_parameters}} -\frac{1}{2}\log|\bm C_{\nomeq{hyper_parameters}}| - \frac{1}{2}\bm y^T\bm C_{\nomeq{hyper_parameters}}\bm y - \frac{N}{2}\log(2\pi)
|
||||||
\end{align}
|
\end{align}
|
||||||
Leider ist diese zu optimierende Funktion nicht konvex,
|
Leider ist diese zu optimierende Funktion nicht konvex,
|
||||||
weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren angesetzt werden kann
|
weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren (\cref{sec:Gradient Descent}) angesetzt werden kann
|
||||||
und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
|
und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
|
||||||
\subsubsection{Beispiele}%
|
\subsubsection{Beispiele}%
|
||||||
\label{ssub:Beispiele}
|
\label{ssub:Beispiele}
|
||||||
|
@ -156,7 +156,7 @@ Welche Loss Function $l$ verwendet werden sollte hängt dabei vom Anwendungsgebi
|
|||||||
|
|
||||||
\section{Feature Learning}%
|
\section{Feature Learning}%
|
||||||
\label{sec:Feature Learning}
|
\label{sec:Feature Learning}
|
||||||
Die letzte Schicht eines Neural Networks macht im Prinzip nur eine \nameref{cha:Linear Regression},
|
Die letzte Schicht eines Neural Networks macht im Prinzip nur eine \dref{cha:Linear Regression},
|
||||||
welche durch die vorhergegangenen Schichten vorbereitet wird.
|
welche durch die vorhergegangenen Schichten vorbereitet wird.
|
||||||
\begin{figure}[H]
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
|
@ -7,7 +7,7 @@ und die Größe der Batches an die Anzahl der \gls{GPU} Rechenkerne angepasst is
|
|||||||
\begin{equation} \label{eq:neural_networks:mini-batches}
|
\begin{equation} \label{eq:neural_networks:mini-batches}
|
||||||
\bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{b}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)
|
\bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{b}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)
|
||||||
\end{equation}
|
\end{equation}
|
||||||
Um den Gradienten für die einzelnen Gewichte zu errechnen wird die \nameref{sec:Backpropagation} verwendet.
|
Um den Gradienten für die einzelnen Gewichte zu errechnen wird die \dref{sec:Backpropagation} verwendet.
|
||||||
|
|
||||||
\section{Backpropagation}%
|
\section{Backpropagation}%
|
||||||
\label{sec:Backpropagation}
|
\label{sec:Backpropagation}
|
||||||
|
@ -37,7 +37,7 @@ Der Zustand ergibt sich aus der Rekurrenz Gleichung (recurrence formula).
|
|||||||
\section{\texorpdfstring{\glsxtrfull{BPTT}}{\glsfmtfull{BPTT}}}%
|
\section{\texorpdfstring{\glsxtrfull{BPTT}}{\glsfmtfull{BPTT}}}%
|
||||||
\label{sec:BPTT}
|
\label{sec:BPTT}
|
||||||
Die Gewichte in einem \gls{RNN} können mithilfe von \gls{BPTT} angepasst werden.
|
Die Gewichte in einem \gls{RNN} können mithilfe von \gls{BPTT} angepasst werden.
|
||||||
Hierbei wird der Gradient wie bei der normalen \nameref{sec:Backpropagation} errechnet,
|
Hierbei wird der Gradient wie bei der normalen \dref{sec:Backpropagation} errechnet,
|
||||||
wobei zusätzlich noch die Differentiation in Zeitrichtung durchgeführt werden muss.
|
wobei zusätzlich noch die Differentiation in Zeitrichtung durchgeführt werden muss.
|
||||||
\begin{figure}[H]
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
|
@ -49,7 +49,7 @@ welches auf diese Weise trainiert wurde getestet werden kann.
|
|||||||
|
|
||||||
\paragraph{Drop Connect}%
|
\paragraph{Drop Connect}%
|
||||||
\label{par:Drop Connect}
|
\label{par:Drop Connect}
|
||||||
Eine Abwandlung von \nameref{par:Dropout},
|
Eine Abwandlung von \dref{par:Dropout},
|
||||||
bei der alle Neuronen erhalten bleiben und lediglich Kanten zwischen den Neuronen weggelassen werden.
|
bei der alle Neuronen erhalten bleiben und lediglich Kanten zwischen den Neuronen weggelassen werden.
|
||||||
\begin{figure}[H]
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
|
Loading…
x
Reference in New Issue
Block a user