forked from TH_General/Template_Summary
Alle Optimierungen abgeschlossen.
This commit is contained in:
@@ -212,13 +212,13 @@ Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Pr
|
||||
|
||||
\subsection{\texorpdfstring{\glsxtrfull{SDG}}{\glsfmtfull{SDG}}}%
|
||||
\label{sub:SDG}
|
||||
\begin{wrapfigure}{r}{.5\textwidth}
|
||||
\begin{wrapfigure}{r}{.4\textwidth}
|
||||
\vspace*{-15mm}
|
||||
\centering
|
||||
\includegraphics[width=0.8\linewidth]{batch_vs_stochastic_gradient_descent.png}
|
||||
\caption{Batch vs. Stochastic Gradient Descent}
|
||||
\label{fig:batch_vs_stochastic_gradient_descent}
|
||||
\vspace*{-20mm}
|
||||
\vspace*{-10mm}
|
||||
\end{wrapfigure}
|
||||
Um die Loss Function nicht für alle Datenpunkte evaluieren zu müssen wird beim \gls{SDG} lediglich der Verlust an einem einzelnen, zufällig gewählten Punkt ermittelt
|
||||
\begin{equation} \label{eq:stochastic_gradient_descent}
|
||||
|
||||
@@ -82,6 +82,7 @@ welchen Anteil die Klasse $k$ auf der linken Seite des Splits hat.
|
||||
\label{ssub:Classification Tree}
|
||||
\includegraphics[width=.6\textwidth]{classification_tree.png}\\
|
||||
(Herleitung: \cref{sec:Herleitung: CART: Classification Tree})
|
||||
\clearpage
|
||||
|
||||
\subsubsection{Regression Tree}%
|
||||
\label{ssub:Regression Tree}
|
||||
|
||||
@@ -33,6 +33,8 @@ Man spricht hierbei dann von einem Dual Optimization Problem
|
||||
\bm\lambda^*=\argmax_{\bm\lambda} g(\bm\lambda), g(\bm\lambda)= \min_{\bm x}L(\bm x,\bm\lambda)
|
||||
\end{equation}
|
||||
Hieraus ergibt sich der folgende Ablauf für die Lagrangian Optimization
|
||||
\pagebreak
|
||||
|
||||
\begin{mybox}
|
||||
\textbf{\large Lagrangian Optimization}\\
|
||||
\begin{enumerate}
|
||||
|
||||
@@ -73,7 +73,7 @@ Gegeben: Marginal (\cref{eq:marginal_gaussian_distribution}) und Conditional (\c
|
||||
\section{Gaussian Propagation}%
|
||||
\label{sec:Gaussian Propagation}
|
||||
Mit den Marginal und Conditional aus \cref{eq:marginal_gaussian_distribution} und \cref{eq:conditional_gaussian_distribution} ist es möglich den Conditional $p(\bm y)$ zu ermitteln:\\
|
||||
({\color{red}Herleitung Vorlesung 07 Folie 31})
|
||||
(Herleitung: \cref{sec:Herleitung: Gaussian Propagation})
|
||||
\begin{itemize}
|
||||
\item Mean: \tabto{2.2cm}$\bm\mu_{\bm y} = \bm F\bm\mu_{\bm x}$
|
||||
\item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm y} = \sigma_{\bm y}^2\nomeq{identity_matrix} + \bm F\nomeq{covariance}_{\bm x}\bm F^T$
|
||||
|
||||
@@ -75,7 +75,7 @@ und ist die am häufigsten genutzte Kernel Methode
|
||||
\begin{equation} \label{eq:gaussian_kernel}
|
||||
\nomeq{kernel_function}(\bm x,\bm y) = \exp\left(-\frac{\|\bm x - \bm y\|^2}{2\nomeq{variance}}\right)
|
||||
\end{equation}
|
||||
{\color{red}Beweis für die positive Definitheit in Vorlesung 04 Seite 14 f.}
|
||||
(Beweis für die positive Definitheit in \cref{sec:Beweis fuer die positive Definitheit des Gaussian Kernels})
|
||||
|
||||
\section{Kernel Trick}%
|
||||
\label{sec:Kernel Trick}
|
||||
|
||||
@@ -57,7 +57,6 @@ ergibt sich durch:
|
||||
\bm y = \nomeq{activation_function}(\bm W\bm x + \bm b)
|
||||
\end{equation}
|
||||
\begin{wrapfigure}{r}{.3\textwidth}
|
||||
\vspace*{-8mm}
|
||||
\centering
|
||||
\includegraphics[width=0.8\linewidth]{feedforward_neural_network_composition.png}
|
||||
\caption{Feedforward Neural Network mit Funktionen}
|
||||
@@ -92,15 +91,15 @@ ab welchem Schwellwert das Produkt aus Eingangswerten und Gewichten zu relevante
|
||||
In den meisten Fällen wird die \glsxtrshort{ReLU} \noms{activation_function} verwendet,
|
||||
wobei es sich auch lohnt, die Leaky \glsxtrshort{ReLU} oder \glsxtrshort{ELU} auszubrobieren.
|
||||
Die Sigmoid Funktion (\cref{ssub:Logistic sigmoid function}) sollte ausschließlich als \noms{activation_function} in Klassifikationsproblemen verwendet werden.\\
|
||||
\includegraphics[scale=.7]{sigmoid_activation_function.png}\\
|
||||
\includegraphics[scale=.6]{sigmoid_activation_function.png}\\
|
||||
\hrule{\textwidth,1mm}
|
||||
\includegraphics[scale=.7]{tanh_activation_function.png}\\
|
||||
\includegraphics[scale=.6]{tanh_activation_function.png}\\
|
||||
\hrule{\textwidth,1mm}
|
||||
\includegraphics[scale=.7]{ReLU_activation_function.png}\\
|
||||
\includegraphics[scale=.6]{ReLU_activation_function.png}\\
|
||||
\hrule{\textwidth,1mm}
|
||||
\includegraphics[scale=.7]{Leaky_ReLU_activation_function.png}\\
|
||||
\includegraphics[scale=.6]{Leaky_ReLU_activation_function.png}\\
|
||||
\hrule{\textwidth,1mm}
|
||||
\includegraphics[scale=.7]{exponential_linear_units_activation_function.png}\\
|
||||
\includegraphics[scale=.6]{exponential_linear_units_activation_function.png}\\
|
||||
|
||||
|
||||
\section{Optimization}%
|
||||
|
||||
@@ -39,6 +39,7 @@ Hier berechnet sich der Loss durch
|
||||
\mathcal L &= \frac{1}{2}(y-t)^2
|
||||
\end{align}
|
||||
Für dieses Neural Network ist die Backpropagation dann
|
||||
|
||||
\begin{alignat}{5} \label{eq:backward_pass}
|
||||
\frac{\partial \mathcal L}{\partial y} &= y - t &&
|
||||
&&=\overline{y}\\
|
||||
@@ -163,17 +164,17 @@ bei denen die Lernrate abhängig von der Anzahl der Durchläufe des \nameref{cha
|
||||
\begin{tabularx}{\textwidth}{X|Y|Y}
|
||||
\bfseries\centering Verfahren & \bfseries Learning Rate & \bfseries Training Loss\\
|
||||
\hline
|
||||
\textbf{Step:} Lernrate verändert sich nach einer bestimmten Anzahl von Algorithmus-Durchläufen & & \includegraphics[width=\linewidth,align=c]{learning_rate_decay_step.png}\\
|
||||
\textbf{Step:} Lernrate verändert sich nach einer bestimmten Anzahl von Algorithmus-Durchläufen & & \includegraphics[width=.8\linewidth,align=c]{learning_rate_decay_step.png}\\
|
||||
\hline
|
||||
\textbf{Cosine:}$\alpha_t = \frac{1}{2}\alpha_0(1+\cos(\frac{t\pi}{T}))$ &
|
||||
\includegraphics[width=\linewidth,align=c]{learning_rate_decay_cosine_learning_rate.png} &
|
||||
\includegraphics[width=\linewidth,align=c]{learning_rate_decay_cosine_training_loss.png} \\
|
||||
\includegraphics[width=.8\linewidth,align=c]{learning_rate_decay_cosine_learning_rate.png} &
|
||||
\includegraphics[width=.8\linewidth,align=c]{learning_rate_decay_cosine_training_loss.png} \\
|
||||
\hline
|
||||
\textbf{Linear:}$\alpha_t = \alpha_0(1-\frac{t}{T})$ &
|
||||
\includegraphics[width=\linewidth,align=c]{learning_rate_decay_linear_learning_rate.png} & \\
|
||||
\includegraphics[width=.8\linewidth,align=c]{learning_rate_decay_linear_learning_rate.png} & \\
|
||||
\hline
|
||||
\textbf{Inverse sqrt:}$\alpha_t = \frac{\alpha_0}{\sqrt{t}}$ &
|
||||
\includegraphics[width=\linewidth,align=c]{learning_rate_decay_inverse_sqrt.png} & \\
|
||||
\includegraphics[width=.8\linewidth,align=c]{learning_rate_decay_inverse_sqrt.png} & \\
|
||||
\end{tabularx}
|
||||
($\alpha_0$: inital learning rate, $\alpha_t$: learning rate at epoch $t$, $T$: total number of epochs)
|
||||
\end{table}
|
||||
|
||||
Reference in New Issue
Block a user