verlinkungen zur Vorlesung in Anhang gepackt.

This commit is contained in:
2022-02-21 14:50:48 +01:00
parent c9f9736173
commit b156e620d0
23 changed files with 287 additions and 45 deletions

View File

@@ -76,7 +76,7 @@ Das Ziel ist es die \gls{SSD} zu reduzieren.
\subsection{Konvergenz}%
\label{sub:K-Means:Konvergenz}
Es kann gezeigt werden,
dass K-Means konvergiert ({\color{red} Gesamtfoliensatz Folie 683}).
dass K-Means konvergiert (\cref{sec:Beweis: K-Means Konvergenz}).
Allerdings wird nur ein lokales Optimum gefunden.
Ob dieses dem globalen Optimum entspricht ist vor allem von der Initialisierung der Cluster"~ Mittelpunkte abhängig.
Die Suche nach dem globalen Optimum stellt allerdings ein NP-hartes Problem dar.

View File

@@ -41,7 +41,7 @@ wenn sie hochdimensionale Daten repräsentieren sollen,
da hier der \dref{sec:Curse of Dimensionality} einsetzt.
Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.
Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
Eine formale Definition von Histogrammen ist in \cref{sec:Formale Definition: Histrograms} zu finden.
\subsection{Kernel Density Estimation}%
\label{sub:Kernel Density Estimation}
@@ -144,7 +144,7 @@ ob sich diese Funktion differenzieren lässt.
\frac{\partial\mathcal L}{\partial \bm\mu_j}
&= \sum_{i=1}^N \frac{\pi_j\nomeq{gaussian_distribution}(\bm x_i|\bm\mu_j,\nomeq{covariance}_j)}
{\sum_{k=1}^K \pi_k\nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k)}\nomeq{covariance}_j^{-1}(\bm x_i - \bm\mu_j)\\
&= \dots \text{ \color{red} Herleitung Vorlesung 11 Folie 7 }\\
&= \dots \text{(Herleitung: \cref{sec:Herleitung: Differenzierung des GMMs})}\\
&= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
\end{align}
Dies zeigt,

View File

@@ -56,7 +56,7 @@ die den geringsten Reproduction Error haben.\\(hier: Mean Squared Reproduction E
Für einen einzelnen Basisvektor $\bm u_i$ ist lässt sich der Error durch
\begin{align} \label{eq:single_basis_vector_error}
E(\bm u_1) &= \sum_{i=1}^N \| \bm x_i - \tilde{\bm x_i} \|^2 \\
&= \dots\text{ {\color{red} Herleitung in Gesamtfoliensatz Folie 650} } \\
&= \dots\text{(Herleitung: \cref{sec:Herleitung: Dimensionality Reduction: Minimizing the Error}) } \\
&= \sum_{i=1}^N\bm x_i^T\bm x_i - z_{i1}^2\\
&\Rightarrow \argmin_{\bm u_1}E(\bm u_1)
= \argmax_{\bm u_1}\sum_{i=1}^N z_{i1}^2
@@ -96,7 +96,7 @@ ist definiert als
Die \say{second principal direction} ist der Basisvektor,
welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: \cref{sec:Herleitung: PCA: Maximierungsproblem in Matrix-Schreibweise}).
\begin{equation} \label{eq:PCA_constrained_optimization}
\bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
\end{equation}
@@ -120,4 +120,4 @@ Die Schwelle $M$ kann hierbei Wahlweise durch Ausprobieren oder durch eine Schwe
\subsubsection{Anwendungsbeispiele}%
\label{ssub:PCA:Anwendungsbeispiele}
{\color{red} Gesamtfoliensatz Folien 661 - 667}
siehe \cref{sec:Anwendungsbeispiele: PCA}

View File

@@ -23,7 +23,7 @@ Hierbei werden die Cluster-Mittelpunkte meist über den \dref{sec:K-Means Algori
\section{Decomposition in lower-bound and \glstopshort{KL}-term}%
\label{sec:Decomposition in lower-bound and KL-term}
Die \glslink{marginal}{Marginal} Log-Likelihood eines \gls{latent_variable_model}s lässt sich wie folgt zerlegen (Herleitung: {\color{red}Vorlesung 11 Folie 24})
Die \glslink{marginal}{Marginal} Log-Likelihood eines \gls{latent_variable_model}s lässt sich wie folgt zerlegen (Herleitung: \cref{sec:Herleitung: EM-Decomposition})
\begin{align} \label{eq:decomposition_in_lower-bound_and_KL-term}
\underbrace{\log p(\bm x|\bm\theta)}_{\text{\glslink{marginal}{marginal} log-like}}
&= \mathcal L(q|\bm\theta) + \nomeq{kl_divergence}(q(z)\|p(z|\bm x))\\
@@ -184,13 +184,13 @@ Die \glslink{marginal}{Marginal} Likelihood ist gegeben durch:
Die Lower-Bound kann in Bezug auf $\bm\theta$ bestimmt werden.
\begin{align} \label{eq:EM_for_dimensionality_reduction_lower_bound}
\mathcal L(q,\bm\theta) &= \sum_i \left( \int_{\bm z} q_i(\bm z)\log p(\bm x_i,z|\bm\theta)dz - \int_{\bm z}q_i(\bm z)\log q_i(z)dz \right) \\
&= \dots\text{ Herleitung: {\color{red} Vorlesung 11 Folie 38} }\\
&= \dots\text{ Herleitung: \cref{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step} }\\
&= \sum_i \int_{\bm z} q_i(\bm z)\log p(\bm x_i|\bm z\bm\theta)d\bm z + \underbrace{\text{const}}_{\text{independent of $\bm\theta$}}
= \sum_i \mathbb{E}_{q_i(\bm z)}[\log p(\bm x_i|\bm z,\bm\theta)] + \underbrace{\text{const}}_{\text{independent of $\bm\theta$}}
\end{align}
Bei $\mathbb{E}_{q_i(\bm z)}$ handelt es sich um eine Approximation des Integrals auf Basis von Sample-Datenpunkten.
Hierfür wird zumeist die Monte-Carlo Abschätzung (\cref{sub:Monte-carlo estimation}) verwendet.
Hierbei ergibt sich (Herleitung: {\color{red} Vorelsung 11 Folie 40}):
Hierbei ergibt sich (Herleitung: \cref{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step: Monte-Carlo Esitmation}):
\begin{align}
\begin{bmatrix} \bm\mu\\\bm W \end{bmatrix} &= (\bm Z^T\bm Z)^{-1}\bm Z^T\bm X,\quad
\text{ mit } \bm Z = \begin{bmatrix} 1 & \bm z_1^T \\ \vdots&\vdots \\ 1 & \bm z_n^T \end{bmatrix}

View File

@@ -19,7 +19,7 @@ und daher nach dem Expectation-Step (\cref{sub:Expectation-Step}) $\nomeq{kl_div
Mithilfe des Satzes von Bayes (\cref{sub:Bayes Rule}) lässt sich allerdings zeigen,
dass
$$\argmin_q \nomeq{kl_divergence}(q(\bm z)\|p(\bm z|\bm x)) = \argmax_q \mathcal L(q,p)$$
gilt (Herleitung: {\color{red} Vorlesung 12 Folie 13 und 14}).
gilt (Herleitung: \cref{sec:Herleitung: Variational Bayes: Maximierung des Marginal Log-Likelihood}).
Daraus folgt,
dass die Maximierung der \glslink{marginal}{Marginal} Log-Likelihood immer noch sichergestellt ist,
da die \gls{KL}-Divergenz bereits minimal ist ($q(\bm z)\approx p(\bm z|\bm x)$),
@@ -74,9 +74,9 @@ Da die Samples hier nicht vorgegeben sind,
sondern generiert werden,
unterscheidet sich dieses Verfahren vom Maximum-Log-Likelihood (\cref{sec:MLE}).
Zudem ist die Verwendung von Gradienten sehr ineffizient.
Abhilfe biete der \say{Reparameterization Trick} (siehe {\color{red} Vorlesung 12 Folie 19 und 20}),
Abhilfe biete der \say{Reparameterization Trick} (siehe \cref{sec:Reparameterization Trick}),
welcher es ermöglicht,
die Lower Bound wie folgt umzuschreiben (mehr Details: {\color{red} Vorlesung 12 Folie 21}):
die Lower Bound wie folgt umzuschreiben (mehr Details: \cref{sec:Zusaetzliche Informationen: Optimization over the variational distribution}):
\begin{equation} \label{eq:amortized_variational_inference_reparametrized_lower_bound}
\mathcal L(q,p) = \frac{1}{N} \sum_i\int p(\bm\xi) (\underbrace{\log p_{\bm\varphi}(\bm x_i|\bm h(\bm\xi,\bm x))}_{\text{reconstruction}}
+ \underbrace{\log p_{\bm\varphi}(\bm h(\bm xi,\bm x)) - \log q_\phi(\bm h(\bm\xi,\bm x)|\bm x)}_{\text{\glsxtrshort{KL}-term}})