forked from TH_General/Template_Summary
verlinkungen zur Vorlesung in Anhang gepackt.
This commit is contained in:
parent
c9f9736173
commit
b156e620d0
197
Appendix.tex
197
Appendix.tex
@ -7,4 +7,201 @@
|
||||
\label{sec:Herleitung: Gradient for Logistic Regression}
|
||||
\includegraphics[page=64,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf}
|
||||
|
||||
\section{Herleitung: Multiclass Classification: Data log-likelihood}%
|
||||
\label{sec:Herleitung: Multiclass Classification: Data log-likelihood}
|
||||
\includegraphics[page=68,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf}
|
||||
|
||||
\section{Herleitung: CART: Classification Tree}%
|
||||
\label{sec:Herleitung: CART: Classification Tree}
|
||||
\includegraphics[page=32,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=33,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=34,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=35,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=36,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
|
||||
\section{Herleitung: CART: Regression Tree}%
|
||||
\label{sec:Herleitung: CART: Regression Tree}
|
||||
\includegraphics[page=24,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=25,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=26,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=27,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=28,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=29,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=30,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
\includegraphics[page=31,width=\textwidth]{Vorlesungen/04_TreesAndForests.pdf}
|
||||
|
||||
\section{Herleitung: Soft Max-Margin: Hinge Loss}%
|
||||
\label{sec:Herleitung: Soft Max-Margin: Hinge Loss}
|
||||
\includegraphics[page=21,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
|
||||
\section{Anwendungsbeispiele: \glstopshortpl{SVM}}%
|
||||
\label{sec:Anwendungsbeispiele: SVMs}
|
||||
\includegraphics[page=34,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=35,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=36,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=37,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=38,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=39,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=40,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
|
||||
\section{Herleitung: SVMs with Kernels}%
|
||||
\label{sec:Herleitung: SVMs with Kernels}
|
||||
\includegraphics[page=52,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=53,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=54,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=55,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=56,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
|
||||
\section{Beispiele: SVM: Model Selection}%
|
||||
\label{sec:Beispiele: SVM: Model Selection}
|
||||
\includegraphics[page=57,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=58,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=59,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=60,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=62,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
\includegraphics[page=63,width=\textwidth]{Vorlesungen/06_SVMs.pdf}
|
||||
|
||||
\section{Anwendungsbeispiel: Bayesian Learning: Regression}%
|
||||
\label{sec:Anwendungsbeispiel: Bayesian Learning: Regression}
|
||||
\includegraphics[page=18,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=19,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=20,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
|
||||
\section{Beweis: Gaussian Processes ist eine kernelized Bayesian Linear Regression}%
|
||||
\label{sec:Beweis: Gaussian Processes ist eine kernelized Bayesian Linear Regression}
|
||||
\includegraphics[page=41,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=42,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=43,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=44,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=45,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
|
||||
\section{Herleitung: Gaussian Processes: Posterior}%
|
||||
\label{sec:Herleitung: Gaussian Processes: Posterior}
|
||||
\includegraphics[page=38,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
|
||||
\section{Herleitung: Gaussian Processes: \nomsym{mean} und \nomsym{variance}}%
|
||||
\label{sec:Herleitung: Gaussian Processes: mean and variance}
|
||||
\includegraphics[page=39,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
|
||||
\section{Beispiel: Neural Network: XOR}%
|
||||
\label{sec:Beispiel: Neural Network: XOR}
|
||||
\includegraphics[page=25,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=26,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
|
||||
\section{Beispiel: Neural Networks: Feature Learning}%
|
||||
\label{sec:Beispiel: Neural Networks: Feature Learning}
|
||||
\includegraphics[page=35,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
|
||||
\section{Herleitung: Backpropagation in Matrix-Form}%
|
||||
\label{sec:Herleitung: Backpropagation in Matrix-Form}
|
||||
\includegraphics[page=52,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=53,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
|
||||
\section{Zusätzliche Informationen: Second Order Optimization}%
|
||||
\label{sec:Zusaetzliche Informationen: Second Order Optimization}
|
||||
\includegraphics[page=74,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=75,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=76,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
|
||||
\section{Zusätzliche Informationen: MNIST Datensatz}%
|
||||
\label{sec:Zusaetzliche Informationen: MNIST Datensatz}
|
||||
\includegraphics[page=82,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
|
||||
\section{Anwendungsbeispiele für CNNs}%
|
||||
\label{sec:Anwendungsbeispiele fuer CNNs}
|
||||
\includegraphics[page=3,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=4,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
|
||||
\section{Beispiel: Convolutional Layer: Stride and Padding}%
|
||||
\label{sec:Beispiel: Convolutional Layer: Stride and Padding}
|
||||
\includegraphics[page=14,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=15,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
|
||||
\section{Herleitung: Dimensionality Reduction: Minimizing the Error}%
|
||||
\label{sec:Herleitung: Dimensionality Reduction: Minimizing the Error}
|
||||
\includegraphics[page=16,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
|
||||
\section{Herleitung: PCA: Maximierungsproblem in Matrix-Schreibweise}%
|
||||
\label{sec:Herleitung: PCA: Maximierungsproblem in Matrix-Schreibweise}
|
||||
\includegraphics[page=19,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
|
||||
\section{Anwendungsbeispiele: PCA}%
|
||||
\label{sec:Anwendungsbeispiele: PCA}
|
||||
\includegraphics[page=27,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
\includegraphics[page=28,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
\includegraphics[page=29,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
\includegraphics[page=30,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
\includegraphics[page=31,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
\includegraphics[page=32,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
\includegraphics[page=33,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
|
||||
\section{Beweis: K-Means Konvergenz}%
|
||||
\label{sec:Beweis: K-Means Konvergenz}
|
||||
\includegraphics[page=49,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
|
||||
\section{Formale Definition: Histrograms}%
|
||||
\label{sec:Formale Definition: Histrograms}
|
||||
\includegraphics[page=64,width=\textwidth]{Vorlesungen/10_DimensionalityReductionClustering.pdf}
|
||||
|
||||
\section{Herleitung: Differenzierung des \glstopshortpl{GMM}}%
|
||||
\label{sec:Herleitung: Differenzierung des GMMs}
|
||||
\includegraphics[page=7,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
|
||||
|
||||
\section{Herleitung: \glstopshort{EM}-Decomposition}%
|
||||
\label{sec:Herleitung: EM-Decomposition}
|
||||
\includegraphics[page=24,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
|
||||
|
||||
\section{Herleitung: EM for GMMs: Maximization"~Step}%
|
||||
\label{sec:Herleitung: EM for GMMs: Maximization-Step}
|
||||
\includegraphics[page=16,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
|
||||
|
||||
\section{Herleitung: EM for Dimensionality Reduction: Maximization"~Step}%
|
||||
\label{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step}
|
||||
\includegraphics[page=38,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
|
||||
|
||||
\section{Herleitung: EM for Dimensionality Reduction: Maximization"~Step: Monte-Carlo Esitmation}%
|
||||
\label{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step: Monte-Carlo Esitmation}
|
||||
\includegraphics[page=40,width=\textwidth]{Vorlesungen/11 - ExpectationMaximization.pdf}
|
||||
|
||||
\section{Herleitung: Variational Bayes: Maximierung des Marginal Log"~Likelihood}%
|
||||
\label{sec:Herleitung: Variational Bayes: Maximierung des Marginal Log-Likelihood}
|
||||
\includegraphics[page=13,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
|
||||
\includegraphics[page=14,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
|
||||
|
||||
\section{Reparameterization Trick}%
|
||||
\label{sec:Reparameterization Trick}
|
||||
\includegraphics[page=19,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
|
||||
\includegraphics[page=20,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
|
||||
|
||||
\section{Zusätzliche Informationen: Optimization over the variational distribution}%
|
||||
\label{sec:Zusaetzliche Informationen: Optimization over the variational distribution}
|
||||
\includegraphics[page=21,width=\textwidth]{Vorlesungen/12 - VaraitionalAutoEncoders.pdf}
|
||||
|
||||
\section{Zusätzliche Informationen: MLE: conditional log-likelihood}%
|
||||
\label{sec:Zusaetzliche Informationen: MLE: conditional log-likelihood}
|
||||
\includegraphics[page=21,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf}
|
||||
\includegraphics[page=22,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf}
|
||||
|
||||
\section{Beweis für die positive Definitheit des Gaussian Kernels}%
|
||||
\label{sec:Beweis fuer die positive Definitheit des Gaussian Kernels}
|
||||
\includegraphics[page=14,width=\textwidth]{Vorlesungen/05_KernelMethods.pdf}
|
||||
\includegraphics[page=15,width=\textwidth]{Vorlesungen/05_KernelMethods.pdf}
|
||||
|
||||
\section{Beispiele für die Optimierung von Hyper-Parametern eines Gaussian Kernels}%
|
||||
\label{sec:Beispiele fuer die Optimierung von Hyper-Parametern eines Gaussian Kernels}
|
||||
\includegraphics[page=53,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=54,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=55,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=56,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=57,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
|
||||
\section{Herleitung: Gaussian Bayes Rules}%
|
||||
\label{sec:Herleitung: Gaussian Bayes Rules}
|
||||
\includegraphics[page=26,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
\includegraphics[page=27,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
|
||||
\section{Herleitung: Gaussian Propagation}%
|
||||
\label{sec:Herleitung: Gaussian Propagation}
|
||||
\includegraphics[page=29,width=\textwidth]{Vorlesungen/07_BayesianLearning.pdf}
|
||||
|
||||
|
||||
|
@ -7,7 +7,7 @@
|
||||
%--------------------
|
||||
%language
|
||||
%--------------------
|
||||
\usepackage[ngerman, english]{babel}
|
||||
\usepackage[ngerman]{babel}
|
||||
\usepackage[shortcuts]{extdash}
|
||||
|
||||
%--------------------
|
||||
|
@ -3,7 +3,10 @@
|
||||
##TODO:
|
||||
- [x] alle ?? beseitigen
|
||||
- [x] für alle \nameref prüfen, ob eine richtige Referenz nachfolgen sollte.
|
||||
- [ ] Folien aus der Vorlesung, auf die in der Zusammenfassung verwiesen werden einfach in den Anhang packen
|
||||
- [x] Folien aus der Vorlesung, auf die in der Zusammenfassung verwiesen werden einfach in den Anhang packen
|
||||
- [x] babel shortcuts fixen
|
||||
- [ ] Teilnummer in Anhang entfernen
|
||||
- [ ] Seitenumbrüche optimieren
|
||||
|
||||
## Notice
|
||||
Requires you to enable [--shell escape](https://tex.stackexchange.com/questions/516604/how-to-enable-shell-escape-or-write18-visual-studio-code-latex-workshop)
|
||||
|
@ -134,6 +134,6 @@ Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachun
|
||||
\label{sub:MAP:Anwendungsbeispiel: Regression}
|
||||
Läuft am Ende auf \dref{sub:Ridge Regression} hinaus.
|
||||
Soll den Zusammenhang beider Methoden zeigen.
|
||||
{\color{red} siehe Vorlesung 07 Folien 20-22}
|
||||
(siehe \cref{sec:Anwendungsbeispiel: Bayesian Learning: Regression})
|
||||
|
||||
|
||||
|
@ -42,7 +42,7 @@ Allerdings ist $\nomeq{variance}(\bm x^*)$ jetzt abhängig von den Eingangsdaten
|
||||
|
||||
\section{Gaussian Processes}%
|
||||
\label{sec:Gaussian Processes}
|
||||
Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version der \dref{sec:Bayesian Linear Regression} ({\color{red}Beweis: Vorlesung 07 Folie 44 ff.}).
|
||||
Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version der \dref{sec:Bayesian Linear Regression} (Beweis: \cref{sec:Beweis: Gaussian Processes ist eine kernelized Bayesian Linear Regression}).
|
||||
\begin{equation} \label{eq:guassian_process_general_definition}
|
||||
f(\bm x)\sim\nomeq{gaussian_process}(\underbrace{m(\bm x)}_{\text{mean function}},\underbrace{k(\bm x,\bm x')}_{\text{covariance function}})
|
||||
\end{equation}
|
||||
@ -60,7 +60,7 @@ Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version d
|
||||
(Covariance Function muss positiv definit sein (genau wie Kernel Function(\cref{sec:Positive Definite Kernels})))
|
||||
\end{itemize}
|
||||
Für Gaußsche Prozesse lässt ist der Posterior gegeben durch:\\
|
||||
({\color{red} Herleitung und weitere Informationen Vorlesung 07 Folie 40})
|
||||
(Herleitung und weitere Informationen: \cref{sec:Herleitung: Gaussian Processes: Posterior})
|
||||
\begin{equation} \label{eq:gaussian_process_posterior}
|
||||
p(\bm y|\bm X) = \nomeq{gaussian_distribution}(\bm y|0,\bm K + \sigma_y^2\nomeq{identity_matrix})
|
||||
\end{equation}
|
||||
@ -74,7 +74,7 @@ Hierbei ist $\bm K$ die \say{covariance matrix} und nicht die \noms{kernel_matri
|
||||
\end{equation}
|
||||
Die Vorhersage $p(y^*|\bm X,\bm y,\bm x^*)$ ist eine \noms{gaussian_distribution},
|
||||
wobei \noms{mean} und \noms{variance} gegeben sind durch:\\
|
||||
({\color{red} Herleitung Vorlesung 07 Folie 41})
|
||||
(Herleitung: \cref{sec:Herleitung: Gaussian Processes: mean and variance})
|
||||
\begin{itemize}
|
||||
\item $\nomeq{mean}(\bm x^*) = \bm k_{\bm x^*}^T(\bm K + \sigma_y^2\nomeq{identity_matrix})^{-1}\bm y$
|
||||
\item $\nomeq{variance}(\bm x^*) = k^* + \sigma_y^2 - \bm k_{\bm x^*}^T(\bm K + \sigma_y^2\nomeq{identity_matrix})^{-1}\bm k_{\bm x^*}$
|
||||
|
@ -277,7 +277,7 @@ Das Problem kann hierbei mithilfe des 1-Hot-Encodings als eine Conditional Multi
|
||||
\label{par:multiclass_classification:Data log-likelihood}
|
||||
\begin{align} \label{eq:multiclass_classification:Data log-likelihood}
|
||||
\loglik(\mathcal{D},\bm{w}_{1:K}) &= \sum_{i=1}^N\log p(c_i|\bm{x}_i)\\
|
||||
&= \dots \text{ \color{red}siehe Vorlesung 02 Folie 69}\\
|
||||
&= \dots \text{(siehe \cref{sec:Herleitung: Multiclass Classification: Data log-likelihood})}\\
|
||||
&= \sum_{i=1}^N\sum_{k=1}^K\bm{h}_{c_i,k}\bm{w}_k^T\bm{\phi}(\bm{x}_i)
|
||||
- \underbrace{\log\left( \sum_{j=1}^K\exp(\bm{w}_j^T\bm{\phi}(\bm{x}_i))\right)}_\text{independent from $k$} \underbrace{\sum_k\bm{h}_{c_i,k}}_{=1}
|
||||
\end{align}
|
||||
|
@ -94,7 +94,7 @@ Um die Nachteile der \dref{sub:Hold-out Method} zu umgehen wird meist die Cross
|
||||
\begin{enumerate}
|
||||
\item Datensatz in $k$ Partitionen unterteilen
|
||||
$$D_1 = \{(\bm{x}_i,y_i)\}_{i=1}^{\frac{n}{k}}, D_2=\{(\bm{x}_i,y_i)\}_{i=\frac{n}{k}+1}^{2 \frac{n}{k}}, \dots$$
|
||||
\item Wiederholtes Anwenden der \nameref{sub:Hold-out Mehtod} auf den Datensatz,
|
||||
\item Wiederholtes Anwenden der \nameref{sub:Hold-out Method} auf den Datensatz,
|
||||
wobei immer eine andere Partition als Validierungsdatensatz dient
|
||||
\end{enumerate}
|
||||
\end{mybox}
|
||||
|
@ -80,8 +80,8 @@ welchen Anteil die Klasse $k$ auf der linken Seite des Splits hat.
|
||||
\label{sub:CART:Beispiele}
|
||||
\subsubsection{Classification Tree}%
|
||||
\label{ssub:Classification Tree}
|
||||
\includegraphics[width=.6\textwidth]{classification_tree.png}
|
||||
{\color{red} Herleitung Vorlesung 04 Seite 24-31}
|
||||
\includegraphics[width=.6\textwidth]{classification_tree.png}\\
|
||||
(Herleitung: \cref{sec:Herleitung: CART: Classification Tree})
|
||||
|
||||
\subsubsection{Regression Tree}%
|
||||
\label{ssub:Regression Tree}
|
||||
@ -96,7 +96,7 @@ Predict (log) prostate specific antigen from
|
||||
\end{itemize}
|
||||
}
|
||||
\vspace*{30mm}
|
||||
{\color{red} Herleitung Vorlesung 04 Seite 32-36}
|
||||
(Herleitung: \cref{sec:Herleitung: CART: Regression Tree})
|
||||
|
||||
\section{Random Forests}%
|
||||
\label{sec:Random Forests}
|
||||
|
@ -76,7 +76,7 @@ Das Ziel ist es die \gls{SSD} zu reduzieren.
|
||||
\subsection{Konvergenz}%
|
||||
\label{sub:K-Means:Konvergenz}
|
||||
Es kann gezeigt werden,
|
||||
dass K-Means konvergiert ({\color{red} Gesamtfoliensatz Folie 683}).
|
||||
dass K-Means konvergiert (\cref{sec:Beweis: K-Means Konvergenz}).
|
||||
Allerdings wird nur ein lokales Optimum gefunden.
|
||||
Ob dieses dem globalen Optimum entspricht ist vor allem von der Initialisierung der Cluster"~ Mittelpunkte abhängig.
|
||||
Die Suche nach dem globalen Optimum stellt allerdings ein NP-hartes Problem dar.
|
||||
|
@ -41,7 +41,7 @@ wenn sie hochdimensionale Daten repräsentieren sollen,
|
||||
da hier der \dref{sec:Curse of Dimensionality} einsetzt.
|
||||
Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.
|
||||
|
||||
Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
|
||||
Eine formale Definition von Histogrammen ist in \cref{sec:Formale Definition: Histrograms} zu finden.
|
||||
|
||||
\subsection{Kernel Density Estimation}%
|
||||
\label{sub:Kernel Density Estimation}
|
||||
@ -144,7 +144,7 @@ ob sich diese Funktion differenzieren lässt.
|
||||
\frac{\partial\mathcal L}{\partial \bm\mu_j}
|
||||
&= \sum_{i=1}^N \frac{\pi_j\nomeq{gaussian_distribution}(\bm x_i|\bm\mu_j,\nomeq{covariance}_j)}
|
||||
{\sum_{k=1}^K \pi_k\nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k)}\nomeq{covariance}_j^{-1}(\bm x_i - \bm\mu_j)\\
|
||||
&= \dots \text{ \color{red} Herleitung Vorlesung 11 Folie 7 }\\
|
||||
&= \dots \text{(Herleitung: \cref{sec:Herleitung: Differenzierung des GMMs})}\\
|
||||
&= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
|
||||
\end{align}
|
||||
Dies zeigt,
|
||||
|
@ -56,7 +56,7 @@ die den geringsten Reproduction Error haben.\\(hier: Mean Squared Reproduction E
|
||||
Für einen einzelnen Basisvektor $\bm u_i$ ist lässt sich der Error durch
|
||||
\begin{align} \label{eq:single_basis_vector_error}
|
||||
E(\bm u_1) &= \sum_{i=1}^N \| \bm x_i - \tilde{\bm x_i} \|^2 \\
|
||||
&= \dots\text{ {\color{red} Herleitung in Gesamtfoliensatz Folie 650} } \\
|
||||
&= \dots\text{(Herleitung: \cref{sec:Herleitung: Dimensionality Reduction: Minimizing the Error}) } \\
|
||||
&= \sum_{i=1}^N\bm x_i^T\bm x_i - z_{i1}^2\\
|
||||
&\Rightarrow \argmin_{\bm u_1}E(\bm u_1)
|
||||
= \argmax_{\bm u_1}\sum_{i=1}^N z_{i1}^2
|
||||
@ -96,7 +96,7 @@ ist definiert als
|
||||
Die \say{second principal direction} ist der Basisvektor,
|
||||
welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.
|
||||
|
||||
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
|
||||
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: \cref{sec:Herleitung: PCA: Maximierungsproblem in Matrix-Schreibweise}).
|
||||
\begin{equation} \label{eq:PCA_constrained_optimization}
|
||||
\bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
|
||||
\end{equation}
|
||||
@ -120,4 +120,4 @@ Die Schwelle $M$ kann hierbei Wahlweise durch Ausprobieren oder durch eine Schwe
|
||||
|
||||
\subsubsection{Anwendungsbeispiele}%
|
||||
\label{ssub:PCA:Anwendungsbeispiele}
|
||||
{\color{red} Gesamtfoliensatz Folien 661 - 667}
|
||||
siehe \cref{sec:Anwendungsbeispiele: PCA}
|
||||
|
@ -23,7 +23,7 @@ Hierbei werden die Cluster-Mittelpunkte meist über den \dref{sec:K-Means Algori
|
||||
|
||||
\section{Decomposition in lower-bound and \glstopshort{KL}-term}%
|
||||
\label{sec:Decomposition in lower-bound and KL-term}
|
||||
Die \glslink{marginal}{Marginal} Log-Likelihood eines \gls{latent_variable_model}s lässt sich wie folgt zerlegen (Herleitung: {\color{red}Vorlesung 11 Folie 24})
|
||||
Die \glslink{marginal}{Marginal} Log-Likelihood eines \gls{latent_variable_model}s lässt sich wie folgt zerlegen (Herleitung: \cref{sec:Herleitung: EM-Decomposition})
|
||||
\begin{align} \label{eq:decomposition_in_lower-bound_and_KL-term}
|
||||
\underbrace{\log p(\bm x|\bm\theta)}_{\text{\glslink{marginal}{marginal} log-like}}
|
||||
&= \mathcal L(q|\bm\theta) + \nomeq{kl_divergence}(q(z)\|p(z|\bm x))\\
|
||||
@ -184,13 +184,13 @@ Die \glslink{marginal}{Marginal} Likelihood ist gegeben durch:
|
||||
Die Lower-Bound kann in Bezug auf $\bm\theta$ bestimmt werden.
|
||||
\begin{align} \label{eq:EM_for_dimensionality_reduction_lower_bound}
|
||||
\mathcal L(q,\bm\theta) &= \sum_i \left( \int_{\bm z} q_i(\bm z)\log p(\bm x_i,z|\bm\theta)dz - \int_{\bm z}q_i(\bm z)\log q_i(z)dz \right) \\
|
||||
&= \dots\text{ Herleitung: {\color{red} Vorlesung 11 Folie 38} }\\
|
||||
&= \dots\text{ Herleitung: \cref{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step} }\\
|
||||
&= \sum_i \int_{\bm z} q_i(\bm z)\log p(\bm x_i|\bm z\bm\theta)d\bm z + \underbrace{\text{const}}_{\text{independent of $\bm\theta$}}
|
||||
= \sum_i \mathbb{E}_{q_i(\bm z)}[\log p(\bm x_i|\bm z,\bm\theta)] + \underbrace{\text{const}}_{\text{independent of $\bm\theta$}}
|
||||
\end{align}
|
||||
Bei $\mathbb{E}_{q_i(\bm z)}$ handelt es sich um eine Approximation des Integrals auf Basis von Sample-Datenpunkten.
|
||||
Hierfür wird zumeist die Monte-Carlo Abschätzung (\cref{sub:Monte-carlo estimation}) verwendet.
|
||||
Hierbei ergibt sich (Herleitung: {\color{red} Vorelsung 11 Folie 40}):
|
||||
Hierbei ergibt sich (Herleitung: \cref{sec:Herleitung: EM for Dimensionality Reduction: Maximization-Step: Monte-Carlo Esitmation}):
|
||||
\begin{align}
|
||||
\begin{bmatrix} \bm\mu\\\bm W \end{bmatrix} &= (\bm Z^T\bm Z)^{-1}\bm Z^T\bm X,\quad
|
||||
\text{ mit } \bm Z = \begin{bmatrix} 1 & \bm z_1^T \\ \vdots&\vdots \\ 1 & \bm z_n^T \end{bmatrix}
|
||||
|
@ -19,7 +19,7 @@ und daher nach dem Expectation-Step (\cref{sub:Expectation-Step}) $\nomeq{kl_div
|
||||
Mithilfe des Satzes von Bayes (\cref{sub:Bayes Rule}) lässt sich allerdings zeigen,
|
||||
dass
|
||||
$$\argmin_q \nomeq{kl_divergence}(q(\bm z)\|p(\bm z|\bm x)) = \argmax_q \mathcal L(q,p)$$
|
||||
gilt (Herleitung: {\color{red} Vorlesung 12 Folie 13 und 14}).
|
||||
gilt (Herleitung: \cref{sec:Herleitung: Variational Bayes: Maximierung des Marginal Log-Likelihood}).
|
||||
Daraus folgt,
|
||||
dass die Maximierung der \glslink{marginal}{Marginal} Log-Likelihood immer noch sichergestellt ist,
|
||||
da die \gls{KL}-Divergenz bereits minimal ist ($q(\bm z)\approx p(\bm z|\bm x)$),
|
||||
@ -74,9 +74,9 @@ Da die Samples hier nicht vorgegeben sind,
|
||||
sondern generiert werden,
|
||||
unterscheidet sich dieses Verfahren vom Maximum-Log-Likelihood (\cref{sec:MLE}).
|
||||
Zudem ist die Verwendung von Gradienten sehr ineffizient.
|
||||
Abhilfe biete der \say{Reparameterization Trick} (siehe {\color{red} Vorlesung 12 Folie 19 und 20}),
|
||||
Abhilfe biete der \say{Reparameterization Trick} (siehe \cref{sec:Reparameterization Trick}),
|
||||
welcher es ermöglicht,
|
||||
die Lower Bound wie folgt umzuschreiben (mehr Details: {\color{red} Vorlesung 12 Folie 21}):
|
||||
die Lower Bound wie folgt umzuschreiben (mehr Details: \cref{sec:Zusaetzliche Informationen: Optimization over the variational distribution}):
|
||||
\begin{equation} \label{eq:amortized_variational_inference_reparametrized_lower_bound}
|
||||
\mathcal L(q,p) = \frac{1}{N} \sum_i\int p(\bm\xi) (\underbrace{\log p_{\bm\varphi}(\bm x_i|\bm h(\bm\xi,\bm x))}_{\text{reconstruction}}
|
||||
+ \underbrace{\log p_{\bm\varphi}(\bm h(\bm xi,\bm x)) - \log q_\phi(\bm h(\bm\xi,\bm x)|\bm x)}_{\text{\glsxtrshort{KL}-term}})
|
||||
|
@ -126,7 +126,7 @@ Hierbei stellt $C$ einen inversen Regularisierungsfaktor dar.
|
||||
|
||||
\subsection{Hinge Loss}%
|
||||
\label{sub:Hinge Loss}
|
||||
Die Optimierung kann in ein uneingeschränktes (unconstrained) Problem umgeschrieben werden ({\color{red} Herleitung Vorlesung 06 Seite 21}):
|
||||
Die Optimierung kann in ein uneingeschränktes (unconstrained) Problem umgeschrieben werden (Herleitung: \cref{sec:Herleitung: Soft Max-Margin: Hinge Loss}):
|
||||
\begin{equation} \label{eq:soft_max-margin_unconstrained}
|
||||
\argmin_{\bm w} \underbrace{\|\bm w\|^2}_{\text{regularization}} + \underbrace{C\sum_{i=1}^N \max(0, 1-y_i f(\bm x_i))}_{\text{loss function}}
|
||||
\end{equation}
|
||||
@ -155,11 +155,11 @@ Im Falle des Hinge Loss bedeutet das:
|
||||
|
||||
\section{Anwendungsbeispiele}%
|
||||
\label{sec:SVM:Anwendungsbeispiele}
|
||||
{\color{red} siehe Vorlesung 06 Folien 34 ff.}
|
||||
siehe \cref{sec:Anwendungsbeispiele: SVMs}
|
||||
|
||||
\section{\texorpdfstring{\glsxtrshortpl{SVM} with Kernels}{\glsfmtshortpl{SVM} with Kernels}}%
|
||||
\label{sec:SVMs with Kernels}
|
||||
Mithilfe des Kernel Tricks (\cref{sec:Kernel Trick}) und der Lagrangian Optimization (\cref{sec:Lagrangian Multipliers}) kann die \gls{SVM}-Optimierung als Dual Optimization Problem formuliert werden ({\color{red} Herleitung Vorlesung 06 Folien 52-56}):
|
||||
Mithilfe des Kernel Tricks (\cref{sec:Kernel Trick}) und der Lagrangian Optimization (\cref{sec:Lagrangian Multipliers}) kann die \gls{SVM}-Optimierung als Dual Optimization Problem formuliert werden (Herleitung: \cref{sec:Herleitung: SVMs with Kernels}):
|
||||
\begin{itemize}
|
||||
\item Primal Optimization Problem:
|
||||
\begin{equation} \label{eq:svm_primal_optimization_problem}
|
||||
@ -187,4 +187,4 @@ Die verstellbaren Parameter sind hierbei:
|
||||
|
||||
\subsubsection{Beispiele}%
|
||||
\label{ssub:SVM:Model Selection:Beispiele}
|
||||
{\color{red} siehe Vorlesung 06 Folien 57-60 und 62-63}
|
||||
siehe \cref{sec:Beispiele: SVM: Model Selection}
|
||||
|
@ -51,7 +51,7 @@ in die umgewandelt werden kann:
|
||||
\section{Gaussian Bayes Rules}%
|
||||
\label{sec:Gaussian Bayes Rules}
|
||||
Es gibt zwei bayesische Regeln für die Errechnung des Posteriors:\\
|
||||
({\color{red}Herleitung Vorlesung 07 Folien 28 und 29})\\
|
||||
(Herleitung: \cref{sec:Herleitung: Gaussian Bayes Rules})\\
|
||||
Gegeben: Marginal (\cref{eq:marginal_gaussian_distribution}) und Conditional (\cref{eq:conditional_gaussian_distribution})
|
||||
\begin{itemize}
|
||||
\item Gaussian Bayes Rule 1:
|
||||
|
@ -124,4 +124,4 @@ weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren (\cref{sec:Gra
|
||||
und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
|
||||
\subsubsection{Beispiele}%
|
||||
\label{ssub:Beispiele}
|
||||
({\color{red}siehe Vorlesung 07 Folie 55 ff.})
|
||||
siehe \cref{sec:Beispiele fuer die Optimierung von Hyper-Parametern eines Gaussian Kernels}
|
||||
|
@ -216,7 +216,7 @@ In diesem Zusammenhang berechnet sich die \gls{MLE} durch:
|
||||
\begin{equation} \label{eq:MLE:conditional}
|
||||
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i)
|
||||
\end{equation}
|
||||
{\color{red} Erklärung: siehe Folien 21 und 22 in Vorlesung 2}
|
||||
Erklärung: \cref{sec:Zusaetzliche Informationen: MLE: conditional log-likelihood}
|
||||
|
||||
\section{\glstoplong{KL} Divergenz}%
|
||||
\label{sec:KL-Divergenz}
|
||||
|
@ -83,7 +83,7 @@ weshalb in der Praxis mehrschichtige Netzwerke verwendet werden (Compact Represe
|
||||
|
||||
\subsection{Example: XOR}%
|
||||
\label{sub:Example: XOR}
|
||||
({\color{red}siehe Vorlesung 08 Folie 25 und 26})
|
||||
siehe \cref{sec:Beispiel: Neural Network: XOR}
|
||||
|
||||
\section{\nomf{activation_function}}%
|
||||
\label{sec:Activation Function}
|
||||
@ -166,4 +166,4 @@ welche durch die vorhergegangenen Schichten vorbereitet wird.
|
||||
\end{figure}
|
||||
\subsection{Beispiel}%
|
||||
\label{sub:Feature Learning:Beispiel}
|
||||
{\color{red} siehe Vorlesung 08 Folie 35}
|
||||
siehe \cref{sec:Beispiel: Neural Networks: Feature Learning}
|
||||
|
@ -1,7 +1,7 @@
|
||||
\chapter{\texorpdfstring{\glsxtrlongpl{CNN}}{\glsfmtlongpl{CNN}}}%
|
||||
\label{cha:CNNs}
|
||||
\glspl{CNN} kommen in einer Vielzahl verschiedener Anwendungsbereiche zum Einsatz.
|
||||
Vor allem im Bereich der Bildverarbeitung sind diese besonders nützlich (Beispiele: {\color{red} Vorlesung 09 Folien 3 und 4}).
|
||||
Vor allem im Bereich der Bildverarbeitung sind diese besonders nützlich (Beispiele: \cref{sec:Anwendungsbeispiele fuer CNNs}).
|
||||
\glspl{CNN} bestehen aus einer Verkettung verschiedenartiger Schichten.
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
@ -84,7 +84,7 @@ wie weit sich dein Filter zwischen jeder Berechnung verschiebt.
|
||||
Eine größere Schrittweite führt dazu,
|
||||
dass die Dimension der Daten stärker reduziert wird.
|
||||
Beim Padding werden zusätzliche Daten (meist nur Nullen) um die Eingabedaten des Convolution Layers herum erzeugt.
|
||||
Ein Beispiel hier für ist in {\color{red} Vorlesung 09 Folie 14 und 15} zu sehen.
|
||||
Ein Beispiel hier für ist in \cref{sec:Beispiel: Convolutional Layer: Stride and Padding} zu sehen.
|
||||
|
||||
\section{Pooling Layers}%
|
||||
\label{sec:Pooling Layers}
|
||||
@ -131,24 +131,42 @@ gab es in ihrer Architektur viele Entwicklungsschritte
|
||||
|
||||
\paragraph{LeNet}%
|
||||
\label{par:LeNet}
|
||||
|
||||
{\color{red} Vorlesung 09 Folie 24}
|
||||
\mbox{}\\
|
||||
\includegraphics[page=24,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
|
||||
\paragraph{ImageNet}%
|
||||
\label{par:ImageNet}
|
||||
{\color{red} Vorlesung 09 Folie 25}
|
||||
\mbox{}\\
|
||||
\includegraphics[page=25,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
|
||||
\subparagraph{AlexNet}%
|
||||
\label{subp:AlexNet}
|
||||
{\color{red} Vorlesung 09 Folie 26-30}
|
||||
\mbox{}\\
|
||||
\includegraphics[page=26,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=27,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=28,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=29,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=30,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
|
||||
\subparagraph{VGG Net}%
|
||||
\label{subp:VGG Net}
|
||||
{\color{red} Vorlesung 09 Folie 33-34}
|
||||
\mbox{}\\
|
||||
\includegraphics[page=33,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=34,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
|
||||
\subparagraph{ResNet}%
|
||||
\label{subp:ResNet}
|
||||
{\color{red} Vorlesung 09 Folie 36-45}
|
||||
\mbox{}\\
|
||||
\includegraphics[page=36,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=37,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=38,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=39,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=40,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=41,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=42,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=43,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=44,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=45,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
|
||||
\subsection{Transfer Learning}%
|
||||
\label{sub:Transfer Learning}
|
||||
|
@ -65,7 +65,7 @@ Die Anwendung dieser Regel wird in den folgenden zwei Beispielen deutlich
|
||||
\mbox{}\\
|
||||
\includegraphics[scale=.65]{multi-layer_perceptron.png}\\
|
||||
Mithilfe der Matrix-Rechentricks aus \cref{sec:Matrix-Calculus} ist es möglich die Backpropagation für das Multi-layer Perceptron in Matrix-Form aufzuschreiben:\\
|
||||
({\color{red}Herleitung Vorlesung 08 Folien 52 und 53})\\
|
||||
(Herleitung: \cref{sec:Herleitung: Backpropagation in Matrix-Form})\\
|
||||
\includegraphics[scale=.65]{multi-layer_perceptron_matrix_form.png}
|
||||
|
||||
\subsection{Computational costs}%
|
||||
@ -188,5 +188,5 @@ welcher als neuer Punkt für den nächsten Schritt des \nameref{cha:Gradient Des
|
||||
Zudem benötigt diese Art von Approximation keine Hyper-Parameter oder Lernraten und brauchen zudem weniger Schritte zum Ziel.
|
||||
Der Nachteil ist jedoch,
|
||||
dass Funktionen dieser Art sehr rechenintensiv sind.\\
|
||||
({\color{red}mehr Informationen in Vorlesung 08 Folie 74 und 76})
|
||||
(mehr Informationen: \cref{sec:Zusaetzliche Informationen: Second Order Optimization})
|
||||
|
||||
|
@ -1,3 +1,21 @@
|
||||
\chapter{Practical Considerations}%
|
||||
\label{cha:Practical Considerations}
|
||||
{\color{red} siehe Vorlesung 08 Folien 93-111}
|
||||
\includegraphics[page=93,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=94,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=95,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=96,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=97,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=98,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=99,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=100,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=101,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=102,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=103,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=104,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=105,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=106,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=107,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=108,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=109,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=110,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
\includegraphics[page=111,width=\textwidth]{Vorlesungen/08_NeuralNets.pdf}
|
||||
|
@ -32,7 +32,13 @@ Der Zustand ergibt sich aus der Rekurrenz Gleichung (recurrence formula).
|
||||
|
||||
\section{\texorpdfstring{\glsxtrshort{RNN}}{\glsfmtshort{RNN}} Computational Graph}%
|
||||
\label{sec:RNN Computational Graph}
|
||||
{\color{red} Vorlesung 09 Folien 58-64}
|
||||
\includegraphics[page=57,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=58,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=59,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=60,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=61,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=62,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
\includegraphics[page=63,width=\textwidth]{Vorlesungen/09_CNNs+RNNs.pdf}
|
||||
|
||||
\section{\texorpdfstring{\glsxtrfull{BPTT}}{\glsfmtfull{BPTT}}}%
|
||||
\label{sec:BPTT}
|
||||
|
@ -79,7 +79,7 @@ Nichtsdestotrotz lässt sich der Graph aus \cref{fig:double_descent} in 3 Bereic
|
||||
wobei hier die Anzahl der benötigten Parameter in etwa der Anzahl der gesampelten Datensätze entspricht
|
||||
\item \say{\say{Modern} interpolating regime}: Training Loss bleibt gering, allerdings senkt sich auch der Validation Loss auf wundersame Art
|
||||
\end{enumerate}
|
||||
Ein Beispiel hierfür ist der Populäre MNIST Datensatz ({\color{red}Vorlesung 08 Folie 82})
|
||||
Ein Beispiel hierfür ist der Populäre MNIST Datensatz (\cref{sec:Zusaetzliche Informationen: MNIST Datensatz})
|
||||
|
||||
\subsection{Sample-wise non-monotonicity}%
|
||||
\label{sub:Sample-wise non-monotonicity}
|
||||
|
Loading…
x
Reference in New Issue
Block a user