forked from TH_General/Template_Summary
alle nameref überdacht.
This commit is contained in:
@@ -6,7 +6,7 @@
|
||||
\caption{Auto-Encoder}
|
||||
\label{fig:auto-encoder}
|
||||
\end{wrapfigure}
|
||||
Auto-Encoder sind \nameref{sec:Feedforward Neural Networks} (\cref{sec:Feedforward Neural Networks}),
|
||||
Auto-Encoder sind \dref{sec:Feedforward Neural Networks},
|
||||
welche auf Basis einer Eingabe $\bm x$ $\bm x$ vorhersagen.
|
||||
Die Besonderheit liegt darin,
|
||||
dass ein Auto-Encoder ein Bottelneck-Layer enthält,
|
||||
|
||||
@@ -16,7 +16,7 @@ um die Wahrscheinlichkeitsverteilung einer Klasse zu Modellieren.
|
||||
\section{Parametric Models}%
|
||||
\label{sec:Parametric Models}
|
||||
Eine Form der Modellierung ist bereits aus vorhergegangenen Algorithmen bekannt.
|
||||
Die Wahrscheinlichkeitsverteilung kann durch ein parametrisiertes Modell (z.B. \nameref{sub:Gaussian Distribution}(\cref{sub:Gaussian Distribution}))
|
||||
Die Wahrscheinlichkeitsverteilung kann durch ein parametrisiertes Modell (z.B. \dref{sub:Gaussian Distribution})
|
||||
approximiert werden.
|
||||
Diese Methode eignet sich allerdings nicht für Datenverteilungen,
|
||||
die weit von der Grundannahme (z.B. normalverteilte Datenpunkte) des parametrischen Modells entfernt sind.
|
||||
@@ -38,7 +38,7 @@ Bei Histogrammen werden die Daten in gleichgroßen Bins gesammelt.
|
||||
Anschließend bietet die Anzahl der Datenpunkte in den jeweiligen Bins eine generalisierte Repräsentation der Dichteverteilung.
|
||||
Histogramme bekommen dann Schwierigkeiten,
|
||||
wenn sie hochdimensionale Daten repräsentieren sollen,
|
||||
da hier der \nameref{sec:Curse of Dimensionality}(\cref{sec:Curse of Dimensionality}) einsetzt.
|
||||
da hier der \dref{sec:Curse of Dimensionality} einsetzt.
|
||||
Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.
|
||||
|
||||
Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
|
||||
@@ -106,7 +106,7 @@ Auch alle nicht-parametrisierten Modelle haben irgendeiner Form ein Model-Select
|
||||
\item \nameref{sub:Kernel Density Estimation}: Kernel Bandwidth $h$
|
||||
\item \nameref{sub:K-nearest Neighbor Density Estimation}: Anzahl der Nachbarn $K$
|
||||
\end{itemize}
|
||||
Meistens wird versucht das Modell mithilfe von \nameref{sub:Cross Validation} (\cref{sub:Cross Validation}) zu lösen.
|
||||
Meistens wird versucht das Modell mithilfe von \dref{sub:Cross Validation} zu lösen.
|
||||
|
||||
\section{Mixture Models}%
|
||||
\label{sec:Mixture Models}
|
||||
@@ -137,7 +137,7 @@ Die \glslink{marginal}{marginal} Log-Likelihood (\cref{sec:Example: Gaussian Dis
|
||||
\mathcal L = \log L(\bm\theta) = \sum_{i=1}^N \log \underbrace{p_{\bm\theta}(\bm x_i)}_{\text{marginal}}
|
||||
= \sum_{i=1}^N \log \underbrace{\left( \sum_{k=1}^K \pi_k \nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k) \right)}_{\text{non-exponential family}}
|
||||
\end{equation}
|
||||
Um einen \nameref{cha:Gradient Descent} (\cref{cha:Gradient Descent}) auf diesen Daten durchzuführen,
|
||||
Um einen \dref{cha:Gradient Descent} auf diesen Daten durchzuführen,
|
||||
muss geprüft werden,
|
||||
ob sich diese Funktion differenzieren lässt.
|
||||
\begin{align} \label{eq:GMM_gradient_descent}
|
||||
@@ -148,7 +148,7 @@ ob sich diese Funktion differenzieren lässt.
|
||||
&= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
|
||||
\end{align}
|
||||
Dies zeigt,
|
||||
dass der Einsatz des \nameref{cha:Gradient Descent} Verfahrens für \glspl{GMM} zwar möglich ist,
|
||||
dass der Einsatz des \nameref{cha:Gradient Descent} Verfahrens (\cref{cha:Gradient Descent}) für \glspl{GMM} zwar möglich ist,
|
||||
aber der Gradient von allen anderen Komponenten abhängig ist.
|
||||
Zudem hat er keine \gls{closed_form_solution},
|
||||
weshalb kein anderes (in der Vorlesung behandeltes) Verfahren als der \nameref{cha:Gradient Descent} in Frage kommt.
|
||||
|
||||
@@ -5,7 +5,7 @@ einen Datensatz mit vielen Features (hohe Dimensionalität) zu vereinfachen.
|
||||
Dies ist vor allem dann hilfreich,
|
||||
wenn die Daten visualisiert werden.
|
||||
Zudem ist es ein guter Preprocessing Schritt für andere ML-Algorihmen.
|
||||
Ein Beispiel hierfür ist die \nameref{cha:Linear Regression},
|
||||
Ein Beispiel hierfür ist die \dref{cha:Linear Regression},
|
||||
bei welcher eine Invertierung einer Matrix von nöten ist,
|
||||
deren Größe von der Dimension der Datenpunkte abhängt.
|
||||
Ist diese Dimension reduziert ergibt sich daraus logischerweise ein geringerer Rechenaufwand.
|
||||
@@ -96,7 +96,7 @@ ist definiert als
|
||||
Die \say{second principal direction} ist der Basisvektor,
|
||||
welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.
|
||||
|
||||
Das Maximierungsproblem kann in eine \nameref{cha:Constraint Optimization} (\cref{cha:Constraint Optimization}) umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
|
||||
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
|
||||
\begin{equation} \label{eq:PCA_constrained_optimization}
|
||||
\bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
|
||||
\end{equation}
|
||||
|
||||
@@ -15,11 +15,11 @@ Das Ziel ist es die (\glslink{marginal}{marginal}) Log-Likelihood
|
||||
\end{equation}
|
||||
zu optimieren.
|
||||
Zwei Verfahren für die Durchführung der \gls{EM} sind bekannt,
|
||||
wobei in der Vorlesung nur auf die \nameref{sec:Decomposition in lower-bound and KL-term} eingegangen wird.
|
||||
wobei in der Vorlesung nur auf die \dref{sec:Decomposition in lower-bound and KL-term} eingegangen wird.
|
||||
Bei der \gls{EM} handelt es sich um ein Verfahren,
|
||||
welches lediglich ein lokales Optimum findet,
|
||||
weshalb die Initialisierung sehr wichtig ist.
|
||||
Hierbei werden die Cluster-Mittelpunkte meist über den \nameref{sec:K-Means Algorithm}us approximiert und ein fester Wert für die Kovarianzen gewählt.
|
||||
Hierbei werden die Cluster-Mittelpunkte meist über den \dref{sec:K-Means Algorithm}us approximiert und ein fester Wert für die Kovarianzen gewählt.
|
||||
|
||||
\section{Decomposition in lower-bound and \glstopshort{KL}-term}%
|
||||
\label{sec:Decomposition in lower-bound and KL-term}
|
||||
@@ -52,7 +52,7 @@ welches die \gls{KL} Divergenz (\cref{sec:KL-Divergenz}) minimiert.
|
||||
\begin{equation} \label{eq:expectation_step}
|
||||
q(z) = \argmin_q \nomeq{kl_divergence}(q(z)\|p(z|\bm x))
|
||||
\end{equation}
|
||||
Für diskrete $z$ (z.B. bei \nameref{sec:Mixture Models}) hat dieses Problem eine \gls{closed_form_solution}.
|
||||
Für diskrete $z$ (z.B. bei \dref{sec:Mixture Models}) hat dieses Problem eine \gls{closed_form_solution}.
|
||||
\begin{equation} \label{eq:expectation_step_closed_form_solution}
|
||||
q(z) = p(z|\bm x,\bm\theta_{\text{old}}) = \frac{p(\bm x,z|\bm\theta_{\text{old}})}{\sum_z p(\bm x,z|\bm\theta_{\text{old}})}
|
||||
\end{equation}
|
||||
@@ -94,7 +94,7 @@ kann nun die Lower-Bound maximiert werden um im Gegenzug die gesamte Log-Likelih
|
||||
\end{enumerate}
|
||||
\end{mybox}
|
||||
Aus \cref{sub:GMMs} ist bekannt,
|
||||
dass die \glslink{marginal}{marginal} Log-Likelihood nicht gut für den \nameref{cha:Gradient Descent} (\cref{cha:Gradient Descent}) geeignet ist.
|
||||
dass die \glslink{marginal}{marginal} Log-Likelihood nicht gut für den \dref{cha:Gradient Descent} geeignet ist.
|
||||
Das Problem ist vor allem deshalb schwer zu lösen,
|
||||
da nicht bekannt ist,
|
||||
zu welcher Teil-Komponente des \gls{GMM} ein einzelner Datenpunkt gehört.
|
||||
@@ -127,6 +127,7 @@ bis das \gls{GMM} konvergiert.
|
||||
\end{figure}
|
||||
|
||||
\section{\glstopshort{EM} for Dimensionality Reduction}%
|
||||
\label{sec:EM for Dimensionality Reduction}
|
||||
\begin{mybox}
|
||||
\textbf{\Large \glsxtrshort{EM} for \nameref{cha:Dimensionality Reduction}} \\
|
||||
\begin{enumerate}
|
||||
@@ -150,11 +151,10 @@ bis das \gls{GMM} konvergiert.
|
||||
\end{align}
|
||||
\end{enumerate}
|
||||
\end{mybox}
|
||||
\label{sec:EM for Dimensionality Reduction}
|
||||
Das \gls{EM} Verfahren kann auch zur \nameref{cha:Dimensionality Reduction} (\cref{cha:Dimensionality Reduction}) verwendet werden.
|
||||
Allerdings wird dieses Verfahren seit der Entdeckung der \nameref{sub:PCA} (\cref{sub:PCA}) kaum noch verwendet.
|
||||
Das \gls{EM} Verfahren kann auch zur \dref{cha:Dimensionality Reduction} verwendet werden.
|
||||
Allerdings wird dieses Verfahren seit der Entdeckung der \dref{sub:PCA} kaum noch verwendet.
|
||||
|
||||
Die \nameref{cha:Dimensionality Reduction} lässt sich als \gls{latent_variable_model} formulieren:
|
||||
Die \dref{cha:Dimensionality Reduction} lässt sich als \gls{latent_variable_model} formulieren:
|
||||
\begin{equation} \label{eq:dimensionality_reduction_latend_variable_model}
|
||||
\bm x = \bm W \bm z + \bm\mu + \bm\epsilon
|
||||
\end{equation}
|
||||
|
||||
Reference in New Issue
Block a user