Regularization für Neural Networks hinzugefügt.

2022-02-17 23:03:48 +01:00
parent b30a277efc
commit c93df266f0
19 changed files with 228 additions and 1 deletions
--- a/chapters/Classical_Supervised_Learning/Linear_Classification.tex
+++ b/chapters/Classical_Supervised_Learning/Linear_Classification.tex
@@ -218,6 +218,7 @@ Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Pr
    \includegraphics[width=0.8\linewidth]{batch_vs_stochastic_gradient_descent.png}
    \caption{Batch vs. Stochastic Gradient Descent}
    \label{fig:batch_vs_stochastic_gradient_descent}
+    \vspace*{-20mm}
 \end{wrapfigure}
 Um die Loss Function nicht für alle Datenpunkte evaluieren zu müssen wird beim \gls{SDG} lediglich der Verlust an einem einzelnen, zufällig gewählten Punkt ermittelt
 \begin{equation} \label{eq:stochastic_gradient_descent}
@@ -231,7 +232,7 @@ Allerdings ist die Evaluation der Loss Function wesentlich effizienter als beim
 \label{sub:Mini-Batches}
 Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \nameref{sub:Batch Gradient Descent} und \nameref{sub:SDG} dar.
 Hierbei wird nicht die Loss Function für einen kleinen Teil der Datenpunkte ausgewertet.
-Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete GPU angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
+Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete \gls{GPU} angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
 aber auch zielgerichteter als beim \nameref{sub:SDG}.
 \begin{equation} \label{eq:mini-batches}
    \frac{1}{b}\sum_i l(\bm{x}_i;\bm{\theta})\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{b}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)