verlinkungen zur Vorlesung in Anhang gepackt.

2022-02-21 14:50:48 +01:00
parent c9f9736173
commit b156e620d0
23 changed files with 287 additions and 45 deletions
--- a/chapters/Classical_Unsupervised_Learning/Clustering.tex
+++ b/chapters/Classical_Unsupervised_Learning/Clustering.tex
@@ -76,7 +76,7 @@ Das Ziel ist es die \gls{SSD} zu reduzieren.
 \subsection{Konvergenz}%
 \label{sub:K-Means:Konvergenz}
 Es kann gezeigt werden,
-dass K-Means konvergiert ({\color{red} Gesamtfoliensatz Folie 683}).
+dass K-Means konvergiert (\cref{sec:Beweis: K-Means Konvergenz}).
 Allerdings wird nur ein lokales Optimum gefunden.
 Ob dieses dem globalen Optimum entspricht ist vor allem von der Initialisierung der Cluster"~ Mittelpunkte abhängig.
 Die Suche nach dem globalen Optimum stellt allerdings ein NP-hartes Problem dar.
--- a/chapters/Classical_Unsupervised_Learning/Density_Estimation.tex
+++ b/chapters/Classical_Unsupervised_Learning/Density_Estimation.tex
@@ -41,7 +41,7 @@ wenn sie hochdimensionale Daten repräsentieren sollen,
 da hier der \dref{sec:Curse of Dimensionality} einsetzt.
 Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.

-Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
+Eine formale Definition von Histogrammen ist in \cref{sec:Formale Definition: Histrograms} zu finden.

 \subsection{Kernel Density Estimation}%
 \label{sub:Kernel Density Estimation}
@@ -144,7 +144,7 @@ ob sich diese Funktion differenzieren lässt.
    \frac{\partial\mathcal L}{\partial \bm\mu_j} 
        &= \sum_{i=1}^N \frac{\pi_j\nomeq{gaussian_distribution}(\bm x_i|\bm\mu_j,\nomeq{covariance}_j)}
            {\sum_{k=1}^K \pi_k\nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k)}\nomeq{covariance}_j^{-1}(\bm x_i - \bm\mu_j)\\
-        &= \dots \text{ \color{red} Herleitung Vorlesung 11 Folie 7 }\\
+        &= \dots \text{(Herleitung: \cref{sec:Herleitung: Differenzierung des GMMs})}\\
        &= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
 \end{align}
 Dies zeigt,
--- a/chapters/Classical_Unsupervised_Learning/Dimensionality_Reduction.tex
+++ b/chapters/Classical_Unsupervised_Learning/Dimensionality_Reduction.tex
@@ -56,7 +56,7 @@ die den geringsten Reproduction Error haben.\\(hier: Mean Squared Reproduction E
 Für einen einzelnen Basisvektor $\bm u_i$ ist lässt sich der Error durch
 \begin{align} \label{eq:single_basis_vector_error}
    E(\bm u_1)  &= \sum_{i=1}^N \| \bm x_i - \tilde{\bm x_i} \|^2 \\
-                &= \dots\text{ {\color{red} Herleitung in Gesamtfoliensatz Folie 650} } \\
+                &= \dots\text{(Herleitung: \cref{sec:Herleitung: Dimensionality Reduction: Minimizing the Error}) } \\
                &= \sum_{i=1}^N\bm x_i^T\bm x_i - z_{i1}^2\\
                &\Rightarrow \argmin_{\bm u_1}E(\bm u_1) 
                    = \argmax_{\bm u_1}\sum_{i=1}^N z_{i1}^2 
@@ -96,7 +96,7 @@ ist definiert als
 Die \say{second principal direction} ist der Basisvektor,
 welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.

-Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
+Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: \cref{sec:Herleitung: PCA: Maximierungsproblem in Matrix-Schreibweise}).
 \begin{equation} \label{eq:PCA_constrained_optimization}
    \bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
 \end{equation}
@@ -120,4 +120,4 @@ Die Schwelle $M$ kann hierbei Wahlweise durch Ausprobieren oder durch eine Schwe

 \subsubsection{Anwendungsbeispiele}%
 \label{ssub:PCA:Anwendungsbeispiele}
-{\color{red} Gesamtfoliensatz Folien 661 - 667}
+siehe \cref{sec:Anwendungsbeispiele: PCA}
--- a/chapters/Classical_Unsupervised_Learning/Expectation_Maximization.tex
+++ b/chapters/Classical_Unsupervised_Learning/Expectation_Maximization.tex
@@ -23,7 +23,7 @@ Hierbei werden die Cluster-Mittelpunkte meist über den \dref{sec:K-Means Algori

 \section{Decomposition in lower-bound and \glstopshort{KL}-term}%
 \label{sec:Decomposition in lower-bound and KL-term}
-Die \glslink{marginal}{Marginal} Log-Likelihood eines \gls{latent_variable_model}s lässt sich wie folgt zerlegen (Herleitung: {\color{red}Vorlesung 11 Folie 24})
+Die \glslink{marginal}{Marginal} Log-Likelihood eines \gls{latent_variable_model}s lässt sich wie folgt zerlegen (Herleitung: \cref{sec:Herleitung: EM-Decomposition})
 \begin{align} \label{eq:decomposition_in_lower-bound_and_KL-term}
    \underbrace{\log p(\bm x|\bm\theta)}_{\text{\glslink{marginal}{marginal} log-like}} 
        &= \mathcal L(q|\bm\theta) + \nomeq{kl_divergence}(q(z)\|p(z|\bm x))\\
@@ -184,13 +184,13 @@ Die \glslink{marginal}{Marginal} Likelihood ist gegeben durch:
 Die Lower-Bound kann in Bezug auf $\bm\theta$ bestimmt werden.
 \begin{align} \label{eq:EM_for_dimensionality_reduction_lower_bound}
    \mathcal L(q,\bm\theta) &= \sum_i \left( \int_{\bm z} q_i(\bm z)\log p(\bm x_i,z|\bm\theta)dz - \int_{\bm z}q_i(\bm z)\log q_i(z)dz \right) \\
-                            &= \dots\text{ Herleitung: {\color{red} Vorlesung 11 Folie 38} }\\
+                            &= \dots\text{ Herleitung: \cref{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step} }\\
                            &= \sum_i \int_{\bm z} q_i(\bm z)\log p(\bm x_i|\bm z\bm\theta)d\bm z + \underbrace{\text{const}}_{\text{independent of $\bm\theta$}}
                            = \sum_i \mathbb{E}_{q_i(\bm z)}[\log p(\bm x_i|\bm z,\bm\theta)] + \underbrace{\text{const}}_{\text{independent of $\bm\theta$}}
 \end{align}
 Bei $\mathbb{E}_{q_i(\bm z)}$ handelt es sich um eine Approximation des Integrals auf Basis von Sample-Datenpunkten.
 Hierfür wird zumeist die Monte-Carlo Abschätzung (\cref{sub:Monte-carlo estimation}) verwendet.
-Hierbei ergibt sich (Herleitung: {\color{red} Vorelsung 11 Folie 40}):
+Hierbei ergibt sich (Herleitung: \cref{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step: Monte-Carlo Esitmation}):
 \begin{align}
    \begin{bmatrix} \bm\mu\\\bm W \end{bmatrix} &= (\bm Z^T\bm Z)^{-1}\bm Z^T\bm X,\quad
    \text{ mit } \bm Z = \begin{bmatrix} 1 & \bm z_1^T \\ \vdots&\vdots \\ 1 & \bm z_n^T \end{bmatrix} 
--- a/chapters/Classical_Unsupervised_Learning/Latent_Variable_Models_and_Variational_Bayes.tex
+++ b/chapters/Classical_Unsupervised_Learning/Latent_Variable_Models_and_Variational_Bayes.tex
@@ -19,7 +19,7 @@ und daher nach dem Expectation-Step (\cref{sub:Expectation-Step}) $\nomeq{kl_div
 Mithilfe des Satzes von Bayes (\cref{sub:Bayes Rule}) lässt sich allerdings zeigen,
 dass 
 $$\argmin_q \nomeq{kl_divergence}(q(\bm z)\|p(\bm z|\bm x)) = \argmax_q \mathcal L(q,p)$$
-gilt (Herleitung: {\color{red} Vorlesung 12 Folie 13 und 14}).
+gilt (Herleitung: \cref{sec:Herleitung: Variational Bayes: Maximierung des Marginal Log-Likelihood}).
 Daraus folgt,
 dass die Maximierung der \glslink{marginal}{Marginal} Log-Likelihood immer noch sichergestellt ist,
 da die \gls{KL}-Divergenz bereits minimal ist ($q(\bm z)\approx p(\bm z|\bm x)$),
@@ -74,9 +74,9 @@ Da die Samples hier nicht vorgegeben sind,
 sondern generiert werden,
 unterscheidet sich dieses Verfahren vom Maximum-Log-Likelihood (\cref{sec:MLE}).
 Zudem ist die Verwendung von Gradienten sehr ineffizient.
-Abhilfe biete der \say{Reparameterization Trick} (siehe {\color{red} Vorlesung 12 Folie 19 und 20}),
+Abhilfe biete der \say{Reparameterization Trick} (siehe \cref{sec:Reparameterization Trick}),
 welcher es ermöglicht,
-die Lower Bound wie folgt umzuschreiben (mehr Details: {\color{red} Vorlesung 12 Folie 21}):
+die Lower Bound wie folgt umzuschreiben (mehr Details: \cref{sec:Zusaetzliche Informationen: Optimization over the variational distribution}):
 \begin{equation} \label{eq:amortized_variational_inference_reparametrized_lower_bound}
    \mathcal L(q,p) = \frac{1}{N} \sum_i\int p(\bm\xi) (\underbrace{\log p_{\bm\varphi}(\bm x_i|\bm h(\bm\xi,\bm x))}_{\text{reconstruction}}
        + \underbrace{\log p_{\bm\varphi}(\bm h(\bm xi,\bm x)) - \log q_\phi(\bm h(\bm\xi,\bm x)|\bm x)}_{\text{\glsxtrshort{KL}-term}})