alle nameref überdacht.

This commit is contained in:
2022-02-21 11:16:06 +01:00
parent 1dbdb7c63c
commit c9f9736173
15 changed files with 40 additions and 40 deletions

View File

@@ -6,7 +6,7 @@
\caption{Auto-Encoder}
\label{fig:auto-encoder}
\end{wrapfigure}
Auto-Encoder sind \nameref{sec:Feedforward Neural Networks} (\cref{sec:Feedforward Neural Networks}),
Auto-Encoder sind \dref{sec:Feedforward Neural Networks},
welche auf Basis einer Eingabe $\bm x$ $\bm x$ vorhersagen.
Die Besonderheit liegt darin,
dass ein Auto-Encoder ein Bottelneck-Layer enthält,

View File

@@ -16,7 +16,7 @@ um die Wahrscheinlichkeitsverteilung einer Klasse zu Modellieren.
\section{Parametric Models}%
\label{sec:Parametric Models}
Eine Form der Modellierung ist bereits aus vorhergegangenen Algorithmen bekannt.
Die Wahrscheinlichkeitsverteilung kann durch ein parametrisiertes Modell (z.B. \nameref{sub:Gaussian Distribution}(\cref{sub:Gaussian Distribution}))
Die Wahrscheinlichkeitsverteilung kann durch ein parametrisiertes Modell (z.B. \dref{sub:Gaussian Distribution})
approximiert werden.
Diese Methode eignet sich allerdings nicht für Datenverteilungen,
die weit von der Grundannahme (z.B. normalverteilte Datenpunkte) des parametrischen Modells entfernt sind.
@@ -38,7 +38,7 @@ Bei Histogrammen werden die Daten in gleichgroßen Bins gesammelt.
Anschließend bietet die Anzahl der Datenpunkte in den jeweiligen Bins eine generalisierte Repräsentation der Dichteverteilung.
Histogramme bekommen dann Schwierigkeiten,
wenn sie hochdimensionale Daten repräsentieren sollen,
da hier der \nameref{sec:Curse of Dimensionality}(\cref{sec:Curse of Dimensionality}) einsetzt.
da hier der \dref{sec:Curse of Dimensionality} einsetzt.
Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.
Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
@@ -106,7 +106,7 @@ Auch alle nicht-parametrisierten Modelle haben irgendeiner Form ein Model-Select
\item \nameref{sub:Kernel Density Estimation}: Kernel Bandwidth $h$
\item \nameref{sub:K-nearest Neighbor Density Estimation}: Anzahl der Nachbarn $K$
\end{itemize}
Meistens wird versucht das Modell mithilfe von \nameref{sub:Cross Validation} (\cref{sub:Cross Validation}) zu lösen.
Meistens wird versucht das Modell mithilfe von \dref{sub:Cross Validation} zu lösen.
\section{Mixture Models}%
\label{sec:Mixture Models}
@@ -137,7 +137,7 @@ Die \glslink{marginal}{marginal} Log-Likelihood (\cref{sec:Example: Gaussian Dis
\mathcal L = \log L(\bm\theta) = \sum_{i=1}^N \log \underbrace{p_{\bm\theta}(\bm x_i)}_{\text{marginal}}
= \sum_{i=1}^N \log \underbrace{\left( \sum_{k=1}^K \pi_k \nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k) \right)}_{\text{non-exponential family}}
\end{equation}
Um einen \nameref{cha:Gradient Descent} (\cref{cha:Gradient Descent}) auf diesen Daten durchzuführen,
Um einen \dref{cha:Gradient Descent} auf diesen Daten durchzuführen,
muss geprüft werden,
ob sich diese Funktion differenzieren lässt.
\begin{align} \label{eq:GMM_gradient_descent}
@@ -148,7 +148,7 @@ ob sich diese Funktion differenzieren lässt.
&= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
\end{align}
Dies zeigt,
dass der Einsatz des \nameref{cha:Gradient Descent} Verfahrens für \glspl{GMM} zwar möglich ist,
dass der Einsatz des \nameref{cha:Gradient Descent} Verfahrens (\cref{cha:Gradient Descent}) für \glspl{GMM} zwar möglich ist,
aber der Gradient von allen anderen Komponenten abhängig ist.
Zudem hat er keine \gls{closed_form_solution},
weshalb kein anderes (in der Vorlesung behandeltes) Verfahren als der \nameref{cha:Gradient Descent} in Frage kommt.

View File

@@ -5,7 +5,7 @@ einen Datensatz mit vielen Features (hohe Dimensionalität) zu vereinfachen.
Dies ist vor allem dann hilfreich,
wenn die Daten visualisiert werden.
Zudem ist es ein guter Preprocessing Schritt für andere ML-Algorihmen.
Ein Beispiel hierfür ist die \nameref{cha:Linear Regression},
Ein Beispiel hierfür ist die \dref{cha:Linear Regression},
bei welcher eine Invertierung einer Matrix von nöten ist,
deren Größe von der Dimension der Datenpunkte abhängt.
Ist diese Dimension reduziert ergibt sich daraus logischerweise ein geringerer Rechenaufwand.
@@ -96,7 +96,7 @@ ist definiert als
Die \say{second principal direction} ist der Basisvektor,
welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.
Das Maximierungsproblem kann in eine \nameref{cha:Constraint Optimization} (\cref{cha:Constraint Optimization}) umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
\begin{equation} \label{eq:PCA_constrained_optimization}
\bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
\end{equation}

View File

@@ -15,11 +15,11 @@ Das Ziel ist es die (\glslink{marginal}{marginal}) Log-Likelihood
\end{equation}
zu optimieren.
Zwei Verfahren für die Durchführung der \gls{EM} sind bekannt,
wobei in der Vorlesung nur auf die \nameref{sec:Decomposition in lower-bound and KL-term} eingegangen wird.
wobei in der Vorlesung nur auf die \dref{sec:Decomposition in lower-bound and KL-term} eingegangen wird.
Bei der \gls{EM} handelt es sich um ein Verfahren,
welches lediglich ein lokales Optimum findet,
weshalb die Initialisierung sehr wichtig ist.
Hierbei werden die Cluster-Mittelpunkte meist über den \nameref{sec:K-Means Algorithm}us approximiert und ein fester Wert für die Kovarianzen gewählt.
Hierbei werden die Cluster-Mittelpunkte meist über den \dref{sec:K-Means Algorithm}us approximiert und ein fester Wert für die Kovarianzen gewählt.
\section{Decomposition in lower-bound and \glstopshort{KL}-term}%
\label{sec:Decomposition in lower-bound and KL-term}
@@ -52,7 +52,7 @@ welches die \gls{KL} Divergenz (\cref{sec:KL-Divergenz}) minimiert.
\begin{equation} \label{eq:expectation_step}
q(z) = \argmin_q \nomeq{kl_divergence}(q(z)\|p(z|\bm x))
\end{equation}
Für diskrete $z$ (z.B. bei \nameref{sec:Mixture Models}) hat dieses Problem eine \gls{closed_form_solution}.
Für diskrete $z$ (z.B. bei \dref{sec:Mixture Models}) hat dieses Problem eine \gls{closed_form_solution}.
\begin{equation} \label{eq:expectation_step_closed_form_solution}
q(z) = p(z|\bm x,\bm\theta_{\text{old}}) = \frac{p(\bm x,z|\bm\theta_{\text{old}})}{\sum_z p(\bm x,z|\bm\theta_{\text{old}})}
\end{equation}
@@ -94,7 +94,7 @@ kann nun die Lower-Bound maximiert werden um im Gegenzug die gesamte Log-Likelih
\end{enumerate}
\end{mybox}
Aus \cref{sub:GMMs} ist bekannt,
dass die \glslink{marginal}{marginal} Log-Likelihood nicht gut für den \nameref{cha:Gradient Descent} (\cref{cha:Gradient Descent}) geeignet ist.
dass die \glslink{marginal}{marginal} Log-Likelihood nicht gut für den \dref{cha:Gradient Descent} geeignet ist.
Das Problem ist vor allem deshalb schwer zu lösen,
da nicht bekannt ist,
zu welcher Teil-Komponente des \gls{GMM} ein einzelner Datenpunkt gehört.
@@ -127,6 +127,7 @@ bis das \gls{GMM} konvergiert.
\end{figure}
\section{\glstopshort{EM} for Dimensionality Reduction}%
\label{sec:EM for Dimensionality Reduction}
\begin{mybox}
\textbf{\Large \glsxtrshort{EM} for \nameref{cha:Dimensionality Reduction}} \\
\begin{enumerate}
@@ -150,11 +151,10 @@ bis das \gls{GMM} konvergiert.
\end{align}
\end{enumerate}
\end{mybox}
\label{sec:EM for Dimensionality Reduction}
Das \gls{EM} Verfahren kann auch zur \nameref{cha:Dimensionality Reduction} (\cref{cha:Dimensionality Reduction}) verwendet werden.
Allerdings wird dieses Verfahren seit der Entdeckung der \nameref{sub:PCA} (\cref{sub:PCA}) kaum noch verwendet.
Das \gls{EM} Verfahren kann auch zur \dref{cha:Dimensionality Reduction} verwendet werden.
Allerdings wird dieses Verfahren seit der Entdeckung der \dref{sub:PCA} kaum noch verwendet.
Die \nameref{cha:Dimensionality Reduction} lässt sich als \gls{latent_variable_model} formulieren:
Die \dref{cha:Dimensionality Reduction} lässt sich als \gls{latent_variable_model} formulieren:
\begin{equation} \label{eq:dimensionality_reduction_latend_variable_model}
\bm x = \bm W \bm z + \bm\mu + \bm\epsilon
\end{equation}