forked from TH_General/Template_Summary
Regularization für Neural Networks hinzugefügt.
This commit is contained in:
@@ -218,6 +218,7 @@ Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Pr
|
||||
\includegraphics[width=0.8\linewidth]{batch_vs_stochastic_gradient_descent.png}
|
||||
\caption{Batch vs. Stochastic Gradient Descent}
|
||||
\label{fig:batch_vs_stochastic_gradient_descent}
|
||||
\vspace*{-20mm}
|
||||
\end{wrapfigure}
|
||||
Um die Loss Function nicht für alle Datenpunkte evaluieren zu müssen wird beim \gls{SDG} lediglich der Verlust an einem einzelnen, zufällig gewählten Punkt ermittelt
|
||||
\begin{equation} \label{eq:stochastic_gradient_descent}
|
||||
@@ -231,7 +232,7 @@ Allerdings ist die Evaluation der Loss Function wesentlich effizienter als beim
|
||||
\label{sub:Mini-Batches}
|
||||
Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \nameref{sub:Batch Gradient Descent} und \nameref{sub:SDG} dar.
|
||||
Hierbei wird nicht die Loss Function für einen kleinen Teil der Datenpunkte ausgewertet.
|
||||
Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete GPU angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
|
||||
Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete \gls{GPU} angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
|
||||
aber auch zielgerichteter als beim \nameref{sub:SDG}.
|
||||
\begin{equation} \label{eq:mini-batches}
|
||||
\frac{1}{b}\sum_i l(\bm{x}_i;\bm{\theta})\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{b}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)
|
||||
|
||||
Reference in New Issue
Block a user