Regularization für Neural Networks hinzugefügt.

This commit is contained in:
2022-02-17 23:03:48 +01:00
parent b30a277efc
commit c93df266f0
19 changed files with 228 additions and 1 deletions

View File

@@ -218,6 +218,7 @@ Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Pr
\includegraphics[width=0.8\linewidth]{batch_vs_stochastic_gradient_descent.png}
\caption{Batch vs. Stochastic Gradient Descent}
\label{fig:batch_vs_stochastic_gradient_descent}
\vspace*{-20mm}
\end{wrapfigure}
Um die Loss Function nicht für alle Datenpunkte evaluieren zu müssen wird beim \gls{SDG} lediglich der Verlust an einem einzelnen, zufällig gewählten Punkt ermittelt
\begin{equation} \label{eq:stochastic_gradient_descent}
@@ -231,7 +232,7 @@ Allerdings ist die Evaluation der Loss Function wesentlich effizienter als beim
\label{sub:Mini-Batches}
Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \nameref{sub:Batch Gradient Descent} und \nameref{sub:SDG} dar.
Hierbei wird nicht die Loss Function für einen kleinen Teil der Datenpunkte ausgewertet.
Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete GPU angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete \gls{GPU} angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
aber auch zielgerichteter als beim \nameref{sub:SDG}.
\begin{equation} \label{eq:mini-batches}
\frac{1}{b}\sum_i l(\bm{x}_i;\bm{\theta})\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{b}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)