verlinkungen zur Vorlesung in Anhang gepackt.

This commit is contained in:
paul-loedige 2022-02-21 14:50:48 +01:00
parent c9f9736173
commit b156e620d0
23 changed files with 287 additions and 45 deletions

View File

@ -7,4 +7,201 @@
\label{sec:Herleitung: Gradient for Logistic Regression}
\includegraphics[page=64,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf}
\section{Herleitung: Multiclass Classification: Data log-likelihood}%
\label{sec:Herleitung: Multiclass Classification: Data log-likelihood}
\includegraphics[page=68,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf}
\section{Herleitung: CART: Classification Tree}%
\label{sec:Herleitung: CART: Classification Tree}
\includegraphics[page=32,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=33,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=34,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=35,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=36,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\section{Herleitung: CART: Regression Tree}%
\label{sec:Herleitung: CART: Regression Tree}
\includegraphics[page=24,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=25,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=26,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=27,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=28,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=29,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=30,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\includegraphics[page=31,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
\section{Herleitung: Soft Max-Margin: Hinge Loss}%
\label{sec:Herleitung: Soft Max-Margin: Hinge Loss}
\includegraphics[page=21,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\section{Anwendungsbeispiele: \glstopshortpl{SVM}}%
\label{sec:Anwendungsbeispiele: SVMs}
\includegraphics[page=34,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=35,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=36,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=37,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=38,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=39,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=40,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\section{Herleitung: SVMs with Kernels}%
\label{sec:Herleitung: SVMs with Kernels}
\includegraphics[page=52,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=53,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=54,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=55,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=56,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\section{Beispiele: SVM: Model Selection}%
\label{sec:Beispiele: SVM: Model Selection}
\includegraphics[page=57,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=58,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=59,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=60,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=62,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\includegraphics[page=63,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
\section{Anwendungsbeispiel: Bayesian Learning: Regression}%
\label{sec:Anwendungsbeispiel: Bayesian Learning: Regression}
\includegraphics[page=18,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=19,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=20,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\section{Beweis: Gaussian Processes ist eine kernelized Bayesian Linear Regression}%
\label{sec:Beweis: Gaussian Processes ist eine kernelized Bayesian Linear Regression}
\includegraphics[page=41,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=42,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=43,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=44,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=45,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\section{Herleitung: Gaussian Processes: Posterior}%
\label{sec:Herleitung: Gaussian Processes: Posterior}
\includegraphics[page=38,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\section{Herleitung: Gaussian Processes: \nomsym{mean} und \nomsym{variance}}%
\label{sec:Herleitung: Gaussian Processes: mean and variance}
\includegraphics[page=39,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\section{Beispiel: Neural Network: XOR}%
\label{sec:Beispiel: Neural Network: XOR}
\includegraphics[page=25,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=26,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\section{Beispiel: Neural Networks: Feature Learning}%
\label{sec:Beispiel: Neural Networks: Feature Learning}
\includegraphics[page=35,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\section{Herleitung: Backpropagation in Matrix-Form}%
\label{sec:Herleitung: Backpropagation in Matrix-Form}
\includegraphics[page=52,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=53,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\section{Zusätzliche Informationen: Second Order Optimization}%
\label{sec:Zusaetzliche Informationen: Second Order Optimization}
\includegraphics[page=74,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=75,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=76,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\section{Zusätzliche Informationen: MNIST Datensatz}%
\label{sec:Zusaetzliche Informationen: MNIST Datensatz}
\includegraphics[page=82,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\section{Anwendungsbeispiele für CNNs}%
\label{sec:Anwendungsbeispiele fuer CNNs}
\includegraphics[page=3,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=4,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\section{Beispiel: Convolutional Layer: Stride and Padding}%
\label{sec:Beispiel: Convolutional Layer: Stride and Padding}
\includegraphics[page=14,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=15,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\section{Herleitung: Dimensionality Reduction: Minimizing the Error}%
\label{sec:Herleitung: Dimensionality Reduction: Minimizing the Error}
\includegraphics[page=16,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\section{Herleitung: PCA: Maximierungsproblem in Matrix-Schreibweise}%
\label{sec:Herleitung: PCA: Maximierungsproblem in Matrix-Schreibweise}
\includegraphics[page=19,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\section{Anwendungsbeispiele: PCA}%
\label{sec:Anwendungsbeispiele: PCA}
\includegraphics[page=27,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\includegraphics[page=28,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\includegraphics[page=29,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\includegraphics[page=30,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\includegraphics[page=31,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\includegraphics[page=32,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\includegraphics[page=33,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\section{Beweis: K-Means Konvergenz}%
\label{sec:Beweis: K-Means Konvergenz}
\includegraphics[page=49,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\section{Formale Definition: Histrograms}%
\label{sec:Formale Definition: Histrograms}
\includegraphics[page=64,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
\section{Herleitung: Differenzierung des \glstopshortpl{GMM}}%
\label{sec:Herleitung: Differenzierung des GMMs}
\includegraphics[page=7,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
\section{Herleitung: \glstopshort{EM}-Decomposition}%
\label{sec:Herleitung: EM-Decomposition}
\includegraphics[page=24,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
\section{Herleitung: EM for GMMs: Maximization"~Step}%
\label{sec:Herleitung: EM for GMMs: Maximization-Step}
\includegraphics[page=16,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
\section{Herleitung: EM for Dimensionality Reduction: Maximization"~Step}%
\label{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step}
\includegraphics[page=38,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
\section{Herleitung: EM for Dimensionality Reduction: Maximization"~Step: Monte-Carlo Esitmation}%
\label{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step: Monte-Carlo Esitmation}
\includegraphics[page=40,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
\section{Herleitung: Variational Bayes: Maximierung des Marginal Log"~Likelihood}%
\label{sec:Herleitung: Variational Bayes: Maximierung des Marginal Log-Likelihood}
\includegraphics[page=13,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
\includegraphics[page=14,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
\section{Reparameterization Trick}%
\label{sec:Reparameterization Trick}
\includegraphics[page=19,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
\includegraphics[page=20,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
\section{Zusätzliche Informationen: Optimization over the variational distribution}%
\label{sec:Zusaetzliche Informationen: Optimization over the variational distribution}
\includegraphics[page=21,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
\section{Zusätzliche Informationen: MLE: conditional log-likelihood}%
\label{sec:Zusaetzliche Informationen: MLE: conditional log-likelihood}
\includegraphics[page=21,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf}
\includegraphics[page=22,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf}
\section{Beweis für die positive Definitheit des Gaussian Kernels}%
\label{sec:Beweis fuer die positive Definitheit des Gaussian Kernels}
\includegraphics[page=14,width=\textwidth]{Vorlesungen/05_KernelMethods.pdf}
\includegraphics[page=15,width=\textwidth]{Vorlesungen/05_KernelMethods.pdf}
\section{Beispiele für die Optimierung von Hyper-Parametern eines Gaussian Kernels}%
\label{sec:Beispiele fuer die Optimierung von Hyper-Parametern eines Gaussian Kernels}
\includegraphics[page=53,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=54,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=55,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=56,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=57,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\section{Herleitung: Gaussian Bayes Rules}%
\label{sec:Herleitung: Gaussian Bayes Rules}
\includegraphics[page=26,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\includegraphics[page=27,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
\section{Herleitung: Gaussian Propagation}%
\label{sec:Herleitung: Gaussian Propagation}
\includegraphics[page=29,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}

View File

@ -7,7 +7,7 @@
%--------------------
%language
%--------------------
\usepackage[ngerman, english]{babel}
\usepackage[ngerman]{babel}
\usepackage[shortcuts]{extdash}
%--------------------

View File

@ -3,7 +3,10 @@
##TODO:
- [x] alle ?? beseitigen
- [x] für alle \nameref prüfen, ob eine richtige Referenz nachfolgen sollte.
- [ ] Folien aus der Vorlesung, auf die in der Zusammenfassung verwiesen werden einfach in den Anhang packen
- [x] Folien aus der Vorlesung, auf die in der Zusammenfassung verwiesen werden einfach in den Anhang packen
- [x] babel shortcuts fixen
- [ ] Teilnummer in Anhang entfernen
- [ ] Seitenumbrüche optimieren
## Notice
Requires you to enable [--shell escape](https://tex.stackexchange.com/questions/516604/how-to-enable-shell-escape-or-write18-visual-studio-code-latex-workshop)

View File

@ -134,6 +134,6 @@ Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachun
\label{sub:MAP:Anwendungsbeispiel: Regression}
Läuft am Ende auf \dref{sub:Ridge Regression} hinaus.
Soll den Zusammenhang beider Methoden zeigen.
{\color{red} siehe Vorlesung 07 Folien 20-22}
(siehe \cref{sec:Anwendungsbeispiel: Bayesian Learning: Regression})

View File

@ -42,7 +42,7 @@ Allerdings ist $\nomeq{variance}(\bm x^*)$ jetzt abhängig von den Eingangsdaten
\section{Gaussian Processes}%
\label{sec:Gaussian Processes}
Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version der \dref{sec:Bayesian Linear Regression} ({\color{red}Beweis: Vorlesung 07 Folie 44 ff.}).
Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version der \dref{sec:Bayesian Linear Regression} (Beweis: \cref{sec:Beweis: Gaussian Processes ist eine kernelized Bayesian Linear Regression}).
\begin{equation} \label{eq:guassian_process_general_definition}
f(\bm x)\sim\nomeq{gaussian_process}(\underbrace{m(\bm x)}_{\text{mean function}},\underbrace{k(\bm x,\bm x')}_{\text{covariance function}})
\end{equation}
@ -60,7 +60,7 @@ Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version d
(Covariance Function muss positiv definit sein (genau wie Kernel Function(\cref{sec:Positive Definite Kernels})))
\end{itemize}
Für Gaußsche Prozesse lässt ist der Posterior gegeben durch:\\
({\color{red} Herleitung und weitere Informationen Vorlesung 07 Folie 40})
(Herleitung und weitere Informationen: \cref{sec:Herleitung: Gaussian Processes: Posterior})
\begin{equation} \label{eq:gaussian_process_posterior}
p(\bm y|\bm X) = \nomeq{gaussian_distribution}(\bm y|0,\bm K + \sigma_y^2\nomeq{identity_matrix})
\end{equation}
@ -74,7 +74,7 @@ Hierbei ist $\bm K$ die \say{covariance matrix} und nicht die \noms{kernel_matri
\end{equation}
Die Vorhersage $p(y^*|\bm X,\bm y,\bm x^*)$ ist eine \noms{gaussian_distribution},
wobei \noms{mean} und \noms{variance} gegeben sind durch:\\
({\color{red} Herleitung Vorlesung 07 Folie 41})
(Herleitung: \cref{sec:Herleitung: Gaussian Processes: mean and variance})
\begin{itemize}
\item $\nomeq{mean}(\bm x^*) = \bm k_{\bm x^*}^T(\bm K + \sigma_y^2\nomeq{identity_matrix})^{-1}\bm y$
\item $\nomeq{variance}(\bm x^*) = k^* + \sigma_y^2 - \bm k_{\bm x^*}^T(\bm K + \sigma_y^2\nomeq{identity_matrix})^{-1}\bm k_{\bm x^*}$

View File

@ -277,7 +277,7 @@ Das Problem kann hierbei mithilfe des 1-Hot-Encodings als eine Conditional Multi
\label{par:multiclass_classification:Data log-likelihood}
\begin{align} \label{eq:multiclass_classification:Data log-likelihood}
\loglik(\mathcal{D},\bm{w}_{1:K}) &= \sum_{i=1}^N\log p(c_i|\bm{x}_i)\\
&= \dots \text{ \color{red}siehe Vorlesung 02 Folie 69}\\
&= \dots \text{(siehe \cref{sec:Herleitung: Multiclass Classification: Data log-likelihood})}\\
&= \sum_{i=1}^N\sum_{k=1}^K\bm{h}_{c_i,k}\bm{w}_k^T\bm{\phi}(\bm{x}_i)
- \underbrace{\log\left( \sum_{j=1}^K\exp(\bm{w}_j^T\bm{\phi}(\bm{x}_i))\right)}_\text{independent from $k$} \underbrace{\sum_k\bm{h}_{c_i,k}}_{=1}
\end{align}

View File

@ -94,7 +94,7 @@ Um die Nachteile der \dref{sub:Hold-out Method} zu umgehen wird meist die Cross
\begin{enumerate}
\item Datensatz in $k$ Partitionen unterteilen
$$D_1 = \{(\bm{x}_i,y_i)\}_{i=1}^{\frac{n}{k}}, D_2=\{(\bm{x}_i,y_i)\}_{i=\frac{n}{k}+1}^{2 \frac{n}{k}}, \dots$$
\item Wiederholtes Anwenden der \nameref{sub:Hold-out Mehtod} auf den Datensatz,
\item Wiederholtes Anwenden der \nameref{sub:Hold-out Method} auf den Datensatz,
wobei immer eine andere Partition als Validierungsdatensatz dient
\end{enumerate}
\end{mybox}

View File

@ -80,8 +80,8 @@ welchen Anteil die Klasse $k$ auf der linken Seite des Splits hat.
\label{sub:CART:Beispiele}
\subsubsection{Classification Tree}%
\label{ssub:Classification Tree}
\includegraphics[width=.6\textwidth]{classification_tree.png}
{\color{red} Herleitung Vorlesung 04 Seite 24-31}
\includegraphics[width=.6\textwidth]{classification_tree.png}\\
(Herleitung: \cref{sec:Herleitung: CART: Classification Tree})
\subsubsection{Regression Tree}%
\label{ssub:Regression Tree}
@ -96,7 +96,7 @@ Predict (log) prostate specific antigen from
\end{itemize}
}
\vspace*{30mm}
{\color{red} Herleitung Vorlesung 04 Seite 32-36}
(Herleitung: \cref{sec:Herleitung: CART: Regression Tree})
\section{Random Forests}%
\label{sec:Random Forests}

View File

@ -76,7 +76,7 @@ Das Ziel ist es die \gls{SSD} zu reduzieren.
\subsection{Konvergenz}%
\label{sub:K-Means:Konvergenz}
Es kann gezeigt werden,
dass K-Means konvergiert ({\color{red} Gesamtfoliensatz Folie 683}).
dass K-Means konvergiert (\cref{sec:Beweis: K-Means Konvergenz}).
Allerdings wird nur ein lokales Optimum gefunden.
Ob dieses dem globalen Optimum entspricht ist vor allem von der Initialisierung der Cluster"~ Mittelpunkte abhängig.
Die Suche nach dem globalen Optimum stellt allerdings ein NP-hartes Problem dar.

View File

@ -41,7 +41,7 @@ wenn sie hochdimensionale Daten repräsentieren sollen,
da hier der \dref{sec:Curse of Dimensionality} einsetzt.
Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.
Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
Eine formale Definition von Histogrammen ist in \cref{sec:Formale Definition: Histrograms} zu finden.
\subsection{Kernel Density Estimation}%
\label{sub:Kernel Density Estimation}
@ -144,7 +144,7 @@ ob sich diese Funktion differenzieren lässt.
\frac{\partial\mathcal L}{\partial \bm\mu_j}
&= \sum_{i=1}^N \frac{\pi_j\nomeq{gaussian_distribution}(\bm x_i|\bm\mu_j,\nomeq{covariance}_j)}
{\sum_{k=1}^K \pi_k\nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k)}\nomeq{covariance}_j^{-1}(\bm x_i - \bm\mu_j)\\
&= \dots \text{ \color{red} Herleitung Vorlesung 11 Folie 7 }\\
&= \dots \text{(Herleitung: \cref{sec:Herleitung: Differenzierung des GMMs})}\\
&= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
\end{align}
Dies zeigt,

View File

@ -56,7 +56,7 @@ die den geringsten Reproduction Error haben.\\(hier: Mean Squared Reproduction E
Für einen einzelnen Basisvektor $\bm u_i$ ist lässt sich der Error durch
\begin{align} \label{eq:single_basis_vector_error}
E(\bm u_1) &= \sum_{i=1}^N \| \bm x_i - \tilde{\bm x_i} \|^2 \\
&= \dots\text{ {\color{red} Herleitung in Gesamtfoliensatz Folie 650} } \\
&= \dots\text{(Herleitung: \cref{sec:Herleitung: Dimensionality Reduction: Minimizing the Error}) } \\
&= \sum_{i=1}^N\bm x_i^T\bm x_i - z_{i1}^2\\
&\Rightarrow \argmin_{\bm u_1}E(\bm u_1)
= \argmax_{\bm u_1}\sum_{i=1}^N z_{i1}^2
@ -96,7 +96,7 @@ ist definiert als
Die \say{second principal direction} ist der Basisvektor,
welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: \cref{sec:Herleitung: PCA: Maximierungsproblem in Matrix-Schreibweise}).
\begin{equation} \label{eq:PCA_constrained_optimization}
\bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
\end{equation}
@ -120,4 +120,4 @@ Die Schwelle $M$ kann hierbei Wahlweise durch Ausprobieren oder durch eine Schwe
\subsubsection{Anwendungsbeispiele}%
\label{ssub:PCA:Anwendungsbeispiele}
{\color{red} Gesamtfoliensatz Folien 661 - 667}
siehe \cref{sec:Anwendungsbeispiele: PCA}

View File

@ -23,7 +23,7 @@ Hierbei werden die Cluster-Mittelpunkte meist über den \dref{sec:K-Means Algori
\section{Decomposition in lower-bound and \glstopshort{KL}-term}%
\label{sec:Decomposition in lower-bound and KL-term}
Die \glslink{marginal}{Marginal} Log-Likelihood eines \gls{latent_variable_model}s lässt sich wie folgt zerlegen (Herleitung: {\color{red}Vorlesung 11 Folie 24})
Die \glslink{marginal}{Marginal} Log-Likelihood eines \gls{latent_variable_model}s lässt sich wie folgt zerlegen (Herleitung: \cref{sec:Herleitung: EM-Decomposition})
\begin{align} \label{eq:decomposition_in_lower-bound_and_KL-term}
\underbrace{\log p(\bm x|\bm\theta)}_{\text{\glslink{marginal}{marginal} log-like}}
&= \mathcal L(q|\bm\theta) + \nomeq{kl_divergence}(q(z)\|p(z|\bm x))\\
@ -184,13 +184,13 @@ Die \glslink{marginal}{Marginal} Likelihood ist gegeben durch:
Die Lower-Bound kann in Bezug auf $\bm\theta$ bestimmt werden.
\begin{align} \label{eq:EM_for_dimensionality_reduction_lower_bound}
\mathcal L(q,\bm\theta) &= \sum_i \left( \int_{\bm z} q_i(\bm z)\log p(\bm x_i,z|\bm\theta)dz - \int_{\bm z}q_i(\bm z)\log q_i(z)dz \right) \\
&= \dots\text{ Herleitung: {\color{red} Vorlesung 11 Folie 38} }\\
&= \dots\text{ Herleitung: \cref{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step} }\\
&= \sum_i \int_{\bm z} q_i(\bm z)\log p(\bm x_i|\bm z\bm\theta)d\bm z + \underbrace{\text{const}}_{\text{independent of $\bm\theta$}}
= \sum_i \mathbb{E}_{q_i(\bm z)}[\log p(\bm x_i|\bm z,\bm\theta)] + \underbrace{\text{const}}_{\text{independent of $\bm\theta$}}
\end{align}
Bei $\mathbb{E}_{q_i(\bm z)}$ handelt es sich um eine Approximation des Integrals auf Basis von Sample-Datenpunkten.
Hierfür wird zumeist die Monte-Carlo Abschätzung (\cref{sub:Monte-carlo estimation}) verwendet.
Hierbei ergibt sich (Herleitung: {\color{red} Vorelsung 11 Folie 40}):
Hierbei ergibt sich (Herleitung: \cref{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step: Monte-Carlo Esitmation}):
\begin{align}
\begin{bmatrix} \bm\mu\\\bm W \end{bmatrix} &= (\bm Z^T\bm Z)^{-1}\bm Z^T\bm X,\quad
\text{ mit } \bm Z = \begin{bmatrix} 1 & \bm z_1^T \\ \vdots&\vdots \\ 1 & \bm z_n^T \end{bmatrix}

View File

@ -19,7 +19,7 @@ und daher nach dem Expectation-Step (\cref{sub:Expectation-Step}) $\nomeq{kl_div
Mithilfe des Satzes von Bayes (\cref{sub:Bayes Rule}) lässt sich allerdings zeigen,
dass
$$\argmin_q \nomeq{kl_divergence}(q(\bm z)\|p(\bm z|\bm x)) = \argmax_q \mathcal L(q,p)$$
gilt (Herleitung: {\color{red} Vorlesung 12 Folie 13 und 14}).
gilt (Herleitung: \cref{sec:Herleitung: Variational Bayes: Maximierung des Marginal Log-Likelihood}).
Daraus folgt,
dass die Maximierung der \glslink{marginal}{Marginal} Log-Likelihood immer noch sichergestellt ist,
da die \gls{KL}-Divergenz bereits minimal ist ($q(\bm z)\approx p(\bm z|\bm x)$),
@ -74,9 +74,9 @@ Da die Samples hier nicht vorgegeben sind,
sondern generiert werden,
unterscheidet sich dieses Verfahren vom Maximum-Log-Likelihood (\cref{sec:MLE}).
Zudem ist die Verwendung von Gradienten sehr ineffizient.
Abhilfe biete der \say{Reparameterization Trick} (siehe {\color{red} Vorlesung 12 Folie 19 und 20}),
Abhilfe biete der \say{Reparameterization Trick} (siehe \cref{sec:Reparameterization Trick}),
welcher es ermöglicht,
die Lower Bound wie folgt umzuschreiben (mehr Details: {\color{red} Vorlesung 12 Folie 21}):
die Lower Bound wie folgt umzuschreiben (mehr Details: \cref{sec:Zusaetzliche Informationen: Optimization over the variational distribution}):
\begin{equation} \label{eq:amortized_variational_inference_reparametrized_lower_bound}
\mathcal L(q,p) = \frac{1}{N} \sum_i\int p(\bm\xi) (\underbrace{\log p_{\bm\varphi}(\bm x_i|\bm h(\bm\xi,\bm x))}_{\text{reconstruction}}
+ \underbrace{\log p_{\bm\varphi}(\bm h(\bm xi,\bm x)) - \log q_\phi(\bm h(\bm\xi,\bm x)|\bm x)}_{\text{\glsxtrshort{KL}-term}})

View File

@ -126,7 +126,7 @@ Hierbei stellt $C$ einen inversen Regularisierungsfaktor dar.
\subsection{Hinge Loss}%
\label{sub:Hinge Loss}
Die Optimierung kann in ein uneingeschränktes (unconstrained) Problem umgeschrieben werden ({\color{red} Herleitung Vorlesung 06 Seite 21}):
Die Optimierung kann in ein uneingeschränktes (unconstrained) Problem umgeschrieben werden (Herleitung: \cref{sec:Herleitung: Soft Max-Margin: Hinge Loss}):
\begin{equation} \label{eq:soft_max-margin_unconstrained}
\argmin_{\bm w} \underbrace{\|\bm w\|^2}_{\text{regularization}} + \underbrace{C\sum_{i=1}^N \max(0, 1-y_i f(\bm x_i))}_{\text{loss function}}
\end{equation}
@ -155,11 +155,11 @@ Im Falle des Hinge Loss bedeutet das:
\section{Anwendungsbeispiele}%
\label{sec:SVM:Anwendungsbeispiele}
{\color{red} siehe Vorlesung 06 Folien 34 ff.}
siehe \cref{sec:Anwendungsbeispiele: SVMs}
\section{\texorpdfstring{\glsxtrshortpl{SVM} with Kernels}{\glsfmtshortpl{SVM} with Kernels}}%
\label{sec:SVMs with Kernels}
Mithilfe des Kernel Tricks (\cref{sec:Kernel Trick}) und der Lagrangian Optimization (\cref{sec:Lagrangian Multipliers}) kann die \gls{SVM}-Optimierung als Dual Optimization Problem formuliert werden ({\color{red} Herleitung Vorlesung 06 Folien 52-56}):
Mithilfe des Kernel Tricks (\cref{sec:Kernel Trick}) und der Lagrangian Optimization (\cref{sec:Lagrangian Multipliers}) kann die \gls{SVM}-Optimierung als Dual Optimization Problem formuliert werden (Herleitung: \cref{sec:Herleitung: SVMs with Kernels}):
\begin{itemize}
\item Primal Optimization Problem:
\begin{equation} \label{eq:svm_primal_optimization_problem}
@ -187,4 +187,4 @@ Die verstellbaren Parameter sind hierbei:
\subsubsection{Beispiele}%
\label{ssub:SVM:Model Selection:Beispiele}
{\color{red} siehe Vorlesung 06 Folien 57-60 und 62-63}
siehe \cref{sec:Beispiele: SVM: Model Selection}

View File

@ -51,7 +51,7 @@ in die umgewandelt werden kann:
\section{Gaussian Bayes Rules}%
\label{sec:Gaussian Bayes Rules}
Es gibt zwei bayesische Regeln für die Errechnung des Posteriors:\\
({\color{red}Herleitung Vorlesung 07 Folien 28 und 29})\\
(Herleitung: \cref{sec:Herleitung: Gaussian Bayes Rules})\\
Gegeben: Marginal (\cref{eq:marginal_gaussian_distribution}) und Conditional (\cref{eq:conditional_gaussian_distribution})
\begin{itemize}
\item Gaussian Bayes Rule 1:

View File

@ -124,4 +124,4 @@ weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren (\cref{sec:Gra
und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
\subsubsection{Beispiele}%
\label{ssub:Beispiele}
({\color{red}siehe Vorlesung 07 Folie 55 ff.})
siehe \cref{sec:Beispiele fuer die Optimierung von Hyper-Parametern eines Gaussian Kernels}

View File

@ -216,7 +216,7 @@ In diesem Zusammenhang berechnet sich die \gls{MLE} durch:
\begin{equation} \label{eq:MLE:conditional}
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i)
\end{equation}
{\color{red} Erklärung: siehe Folien 21 und 22 in Vorlesung 2}
Erklärung: \cref{sec:Zusaetzliche Informationen: MLE: conditional log-likelihood}
\section{\glstoplong{KL} Divergenz}%
\label{sec:KL-Divergenz}

View File

@ -83,7 +83,7 @@ weshalb in der Praxis mehrschichtige Netzwerke verwendet werden (Compact Represe
\subsection{Example: XOR}%
\label{sub:Example: XOR}
({\color{red}siehe Vorlesung 08 Folie 25 und 26})
siehe \cref{sec:Beispiel: Neural Network: XOR}
\section{\nomf{activation_function}}%
\label{sec:Activation Function}
@ -166,4 +166,4 @@ welche durch die vorhergegangenen Schichten vorbereitet wird.
\end{figure}
\subsection{Beispiel}%
\label{sub:Feature Learning:Beispiel}
{\color{red} siehe Vorlesung 08 Folie 35}
siehe \cref{sec:Beispiel: Neural Networks: Feature Learning}

View File

@ -1,7 +1,7 @@
\chapter{\texorpdfstring{\glsxtrlongpl{CNN}}{\glsfmtlongpl{CNN}}}%
\label{cha:CNNs}
\glspl{CNN} kommen in einer Vielzahl verschiedener Anwendungsbereiche zum Einsatz.
Vor allem im Bereich der Bildverarbeitung sind diese besonders nützlich (Beispiele: {\color{red} Vorlesung 09 Folien 3 und 4}).
Vor allem im Bereich der Bildverarbeitung sind diese besonders nützlich (Beispiele: \cref{sec:Anwendungsbeispiele fuer CNNs}).
\glspl{CNN} bestehen aus einer Verkettung verschiedenartiger Schichten.
\begin{figure}[H]
\centering
@ -84,7 +84,7 @@ wie weit sich dein Filter zwischen jeder Berechnung verschiebt.
Eine größere Schrittweite führt dazu,
dass die Dimension der Daten stärker reduziert wird.
Beim Padding werden zusätzliche Daten (meist nur Nullen) um die Eingabedaten des Convolution Layers herum erzeugt.
Ein Beispiel hier für ist in {\color{red} Vorlesung 09 Folie 14 und 15} zu sehen.
Ein Beispiel hier für ist in \cref{sec:Beispiel: Convolutional Layer: Stride and Padding} zu sehen.
\section{Pooling Layers}%
\label{sec:Pooling Layers}
@ -131,24 +131,42 @@ gab es in ihrer Architektur viele Entwicklungsschritte
\paragraph{LeNet}%
\label{par:LeNet}
{\color{red} Vorlesung 09 Folie 24}
\mbox{}\\
\includegraphics[page=24,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\paragraph{ImageNet}%
\label{par:ImageNet}
{\color{red} Vorlesung 09 Folie 25}
\mbox{}\\
\includegraphics[page=25,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\subparagraph{AlexNet}%
\label{subp:AlexNet}
{\color{red} Vorlesung 09 Folie 26-30}
\mbox{}\\
\includegraphics[page=26,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=27,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=28,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=29,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=30,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\subparagraph{VGG Net}%
\label{subp:VGG Net}
{\color{red} Vorlesung 09 Folie 33-34}
\mbox{}\\
\includegraphics[page=33,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=34,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\subparagraph{ResNet}%
\label{subp:ResNet}
{\color{red} Vorlesung 09 Folie 36-45}
\mbox{}\\
\includegraphics[page=36,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=37,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=38,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=39,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=40,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=41,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=42,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=43,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=44,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=45,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\subsection{Transfer Learning}%
\label{sub:Transfer Learning}

View File

@ -65,7 +65,7 @@ Die Anwendung dieser Regel wird in den folgenden zwei Beispielen deutlich
\mbox{}\\
\includegraphics[scale=.65]{multi-layer_perceptron.png}\\
Mithilfe der Matrix-Rechentricks aus \cref{sec:Matrix-Calculus} ist es möglich die Backpropagation für das Multi-layer Perceptron in Matrix-Form aufzuschreiben:\\
({\color{red}Herleitung Vorlesung 08 Folien 52 und 53})\\
(Herleitung: \cref{sec:Herleitung: Backpropagation in Matrix-Form})\\
\includegraphics[scale=.65]{multi-layer_perceptron_matrix_form.png}
\subsection{Computational costs}%
@ -188,5 +188,5 @@ welcher als neuer Punkt für den nächsten Schritt des \nameref{cha:Gradient Des
Zudem benötigt diese Art von Approximation keine Hyper-Parameter oder Lernraten und brauchen zudem weniger Schritte zum Ziel.
Der Nachteil ist jedoch,
dass Funktionen dieser Art sehr rechenintensiv sind.\\
({\color{red}mehr Informationen in Vorlesung 08 Folie 74 und 76})
(mehr Informationen: \cref{sec:Zusaetzliche Informationen: Second Order Optimization})

View File

@ -1,3 +1,21 @@
\chapter{Practical Considerations}%
\label{cha:Practical Considerations}
{\color{red} siehe Vorlesung 08 Folien 93-111}
\includegraphics[page=93,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=94,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=95,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=96,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=97,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=98,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=99,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=100,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=101,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=102,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=103,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=104,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=105,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=106,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=107,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=108,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=109,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=110,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
\includegraphics[page=111,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}

View File

@ -32,7 +32,13 @@ Der Zustand ergibt sich aus der Rekurrenz Gleichung (recurrence formula).
\section{\texorpdfstring{\glsxtrshort{RNN}}{\glsfmtshort{RNN}} Computational Graph}%
\label{sec:RNN Computational Graph}
{\color{red} Vorlesung 09 Folien 58-64}
\includegraphics[page=57,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=58,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=59,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=60,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=61,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=62,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\includegraphics[page=63,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
\section{\texorpdfstring{\glsxtrfull{BPTT}}{\glsfmtfull{BPTT}}}%
\label{sec:BPTT}

View File

@ -79,7 +79,7 @@ Nichtsdestotrotz lässt sich der Graph aus \cref{fig:double_descent} in 3 Bereic
wobei hier die Anzahl der benötigten Parameter in etwa der Anzahl der gesampelten Datensätze entspricht
\item \say{\say{Modern} interpolating regime}: Training Loss bleibt gering, allerdings senkt sich auch der Validation Loss auf wundersame Art
\end{enumerate}
Ein Beispiel hierfür ist der Populäre MNIST Datensatz ({\color{red}Vorlesung 08 Folie 82})
Ein Beispiel hierfür ist der Populäre MNIST Datensatz (\cref{sec:Zusaetzliche Informationen: MNIST Datensatz})
\subsection{Sample-wise non-monotonicity}%
\label{sub:Sample-wise non-monotonicity}