alle nameref überdacht.

This commit is contained in:
paul-loedige 2022-02-21 11:16:06 +01:00
parent 1dbdb7c63c
commit c9f9736173
15 changed files with 40 additions and 40 deletions

View File

@ -2,7 +2,7 @@
##TODO:
- [x] alle ?? beseitigen
- [ ] für alle \nameref prüfen, ob eine richtige Referenz nachfolgen sollte.
- [x] für alle \nameref prüfen, ob eine richtige Referenz nachfolgen sollte.
- [ ] Folien aus der Vorlesung, auf die in der Zusammenfassung verwiesen werden einfach in den Anhang packen
## Notice

View File

@ -33,7 +33,7 @@ Daher ist $p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ nur noch von den gegeben
\section{Example: Gaussian Distribution}%
\label{sec:Example: Gaussian Distribution}
Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
kann die \dref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
@ -42,7 +42,7 @@ Hieraus ergibt sich für einen ganzen Datensatz $\bm X$:
\begin{equation} \label{eq:gaussian_distribution_dataset}
p(\bm X|\nomeq{mean},\sigma)=\prod_i p(x_i|\nomeq{mean},\sigma) = \frac{1}{(2\pi\nomeq{variance})^{\frac{N}{2}}} \exp\left\{ -\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} \right\}
\end{equation}
Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden:
Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens (\cref{sub:Completing the square}) können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden:
\begin{itemize}
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
@ -132,7 +132,7 @@ Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachun
\subsection{Anwendungsbeispiel: Regression}%
\label{sub:MAP:Anwendungsbeispiel: Regression}
Läuft am Ende auf \nameref{sub:Ridge Regression} hinaus.
Läuft am Ende auf \dref{sub:Ridge Regression} hinaus.
Soll den Zusammenhang beider Methoden zeigen.
{\color{red} siehe Vorlesung 07 Folien 20-22}

View File

@ -31,18 +31,18 @@ Anschließend erfolgt die Regression nach den Schritten des \nameref{cha:Bayesia
p(y^*|\bm x^*,\bm X,\bm y) &= \int p(y^*|\bm w,\bm x^*)p(\bm w|\bm X,\bm y)d\bm w \\
&= \int \nomeq{gaussian_distribution}(y_*|\phi_*^T\bm w,\sigma_{\bm y}^2)\nomeq{gaussian_distribution}(\bm w|\bm\mu_{\bm w|\bm X,\bm y},\nomeq{covariance}_{\bm w|\bm X,\bm y}) d\bm w
\end{align}
Um diese Gleichung zu lösen kann die \nameref{sec:Gaussian Propagation} (\cref{sec:Gaussian Propagation}) verwendet werden:
Um diese Gleichung zu lösen kann die \dref{sec:Gaussian Propagation} verwendet werden:
\begin{itemize}
\item $\nomeq{mean}(\bm x^*) = \phi(\bm x^*)^T(\bm\Phi^T\bm\Phi + \nomeq{regularization_factor}\sigma_{\bm y}^2\nomeq{identity_matrix})^{-1}\bm\Phi^T\bm y$
\item $\nomeq{variance}(\bm x^*) = \sigma_{\bm y}^2(1+\phi(\bm x^*)^T(\bm\Phi^T\bm\Phi + \nomeq{regularization_factor}\sigma_{\bm y}^2\nomeq{identity_matrix})^{-1}\phi(\bm x^*))$
\end{itemize}
\end{enumerate}
Es fällt auf, dass $\nomeq{mean}(\bm{x^*})$ sich im Vergleich zur \nameref{sub:Ridge Regression} nicht verändert hat.
Es fällt auf, dass $\nomeq{mean}(\bm{x^*})$ sich im Vergleich zur \dref{sub:Ridge Regression} nicht verändert hat.
Allerdings ist $\nomeq{variance}(\bm x^*)$ jetzt abhängig von den Eingangsdaten.
\section{Gaussian Processes}%
\label{sec:Gaussian Processes}
Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version der \nameref{sec:Bayesian Linear Regression} ({\color{red}Beweis: Vorlesung 07 Folie 44 ff.}).
Ein Gaußscher Prozess ist im Grunde nichts anderes als die kernelized version der \dref{sec:Bayesian Linear Regression} ({\color{red}Beweis: Vorlesung 07 Folie 44 ff.}).
\begin{equation} \label{eq:guassian_process_general_definition}
f(\bm x)\sim\nomeq{gaussian_process}(\underbrace{m(\bm x)}_{\text{mean function}},\underbrace{k(\bm x,\bm x')}_{\text{covariance function}})
\end{equation}

View File

@ -21,7 +21,7 @@ Generative Modelle sind oft sehr komplex weshalb sie nicht näher behandelt werd
\paragraph{Discriminative Modelling}%
\label{par:Discriminative Modelling}
Bei diskriminativen Klassifikator-Modellen wird direkt $p(c|\bm{x})$ oder eine Prediktor-Funktion $f(\bm{x})$ ermittelt.
Diese Art von Klassifikator-Modellierung ist einfacher als das \nameref{par:Generative Modelling}.
Diese Art von Klassifikator-Modellierung ist einfacher als das \dref{par:Generative Modelling}.
\section{Binary Classification}%
\label{sec:Binary Classification}
@ -140,12 +140,12 @@ Für diese Funktion kann gezeigt werden,
dass sie konvex ist (es existiert nur ein globales Maximum).
Allerdings handelt es sich anders als bei der linearen Regression (\cref{cha:Linear Regression}) nicht um eine \say{\gls{closed_form_solution}},
was bedeutet,
dass hier der \nameref{sec:Gradient Descent} für die Optimierung verwendet wird.
dass hier der \dref{sec:Gradient Descent} für die Optimierung verwendet wird.
\subsubsection{Generalized Logistic Models}%
\label{ssub:Generalized Logistic Models}
Um das Verfahren zur Erstellung linearer Diskriminanten auch für nicht-lineare Feature-Räume zu verwenden,
muss ein ähnlicher Trick wie bei der \nameref{sec:Generalisierung der linearen Regression} verwendet werden.
muss ein ähnlicher Trick wie bei der \dref{sec:Generalisierung der linearen Regression} verwendet werden.
Auch hier wird mittels einer \nomf{vector_valued_function} auf eine nicht-lineare Funktion abgebildet.
\begin{equation} \label{eq:generlized_logisitc_regression}
\argmax_{\bm{w}}\log\text{lik}(\bm{w},D) = \argmax_{\bm{w}} \sum_i c_i \log \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)) + (1-c_i)\log(1 - \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)))
@ -205,7 +205,7 @@ Man spricht daher auch von einem Batch Gradient Descent.
\begin{equation} \label{eq:batch_gradient_descent}
\frac{1}{n}\sum_i l(\bm{x}_i;\bm{\theta})\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{n}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)
\end{equation}
Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Prinzip der \nameref{sub:Monte-carlo estimation} dar.
Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Prinzip der \dref{sub:Monte-carlo estimation} dar.
\begin{equation}
\mathbb{E}_{\bm{x}}\left[l(\bm{x};\bm{\theta})\right]\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \eta\mathbb{E}_{\bm{x}}\left[\nabla_{\bm{\theta}} l(\bm{x};\bm{\theta}_t)\right]
\end{equation}
@ -230,7 +230,7 @@ Allerdings ist die Evaluation der Loss Function wesentlich effizienter als beim
\subsection{Mini-Batches}%
\label{sub:Mini-Batches}
Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \nameref{sub:Batch Gradient Descent} und \nameref{sub:SDG} dar.
Die Verwendung von Mini-Batches für den Gradient Descent stellt eine Mischform von \dref{sub:Batch Gradient Descent} und \dref{sub:SDG} dar.
Hierbei wird nicht die Loss Function für einen kleinen Teil der Datenpunkte ausgewertet.
Dies ist weniger rechenintensiv (vor allem, wenn die Mini-Batch-Größe an die verwendete \gls{GPU} angepasst ist) als beim \nameref{sub:Batch Gradient Descent}
aber auch zielgerichteter als beim \nameref{sub:SDG}.

View File

@ -55,8 +55,8 @@ Wie in \cref{sec:Over- vs. Underfitting} und \cref{sec:True Risk vs. Empirical R
ist die Empirical Risk kein guter Maßstab für die Bewertung von Modellen.
Daher werden andere Methoden benötigt um Modelle zu bewerten.
\subsection{Hold"=out Mehtod}%
\label{sub:Hold-out Mehtod}
\subsection{Hold"=out Method}%
\label{sub:Hold-out Method}
Bei der Hold"=out Methode werden die gegebenen Datenpunkte in einen Trainings"~ und einen Validierungsdatensatz unterteilt.
Letzterer Wird dafür genutzt,
die trainierten Modelle zu bewerten.
@ -80,7 +80,7 @@ Diese Methode hat allerdings zwei Nachteile:
\subsection{Cross Validation}%
\label{sub:Cross Validation}
Um die Nachteile der \nameref{sub:Hold-out Mehtod} zu umgehen wird meist die Cross Validation verwendet
Um die Nachteile der \dref{sub:Hold-out Method} zu umgehen wird meist die Cross Validation verwendet
\begin{mybox}
\begin{wrapfigure}{r}{.5\linewidth}
\centering

View File

@ -6,7 +6,7 @@
\caption{Auto-Encoder}
\label{fig:auto-encoder}
\end{wrapfigure}
Auto-Encoder sind \nameref{sec:Feedforward Neural Networks} (\cref{sec:Feedforward Neural Networks}),
Auto-Encoder sind \dref{sec:Feedforward Neural Networks},
welche auf Basis einer Eingabe $\bm x$ $\bm x$ vorhersagen.
Die Besonderheit liegt darin,
dass ein Auto-Encoder ein Bottelneck-Layer enthält,

View File

@ -16,7 +16,7 @@ um die Wahrscheinlichkeitsverteilung einer Klasse zu Modellieren.
\section{Parametric Models}%
\label{sec:Parametric Models}
Eine Form der Modellierung ist bereits aus vorhergegangenen Algorithmen bekannt.
Die Wahrscheinlichkeitsverteilung kann durch ein parametrisiertes Modell (z.B. \nameref{sub:Gaussian Distribution}(\cref{sub:Gaussian Distribution}))
Die Wahrscheinlichkeitsverteilung kann durch ein parametrisiertes Modell (z.B. \dref{sub:Gaussian Distribution})
approximiert werden.
Diese Methode eignet sich allerdings nicht für Datenverteilungen,
die weit von der Grundannahme (z.B. normalverteilte Datenpunkte) des parametrischen Modells entfernt sind.
@ -38,7 +38,7 @@ Bei Histogrammen werden die Daten in gleichgroßen Bins gesammelt.
Anschließend bietet die Anzahl der Datenpunkte in den jeweiligen Bins eine generalisierte Repräsentation der Dichteverteilung.
Histogramme bekommen dann Schwierigkeiten,
wenn sie hochdimensionale Daten repräsentieren sollen,
da hier der \nameref{sec:Curse of Dimensionality}(\cref{sec:Curse of Dimensionality}) einsetzt.
da hier der \dref{sec:Curse of Dimensionality} einsetzt.
Zudem stellt die Wahl der Größe der Bins ein Model-Selection Problem dar.
Eine formale Definition von Histogrammen ist {\color{red} in Vorlesung 10 auf Folie 66} zu finden.
@ -106,7 +106,7 @@ Auch alle nicht-parametrisierten Modelle haben irgendeiner Form ein Model-Select
\item \nameref{sub:Kernel Density Estimation}: Kernel Bandwidth $h$
\item \nameref{sub:K-nearest Neighbor Density Estimation}: Anzahl der Nachbarn $K$
\end{itemize}
Meistens wird versucht das Modell mithilfe von \nameref{sub:Cross Validation} (\cref{sub:Cross Validation}) zu lösen.
Meistens wird versucht das Modell mithilfe von \dref{sub:Cross Validation} zu lösen.
\section{Mixture Models}%
\label{sec:Mixture Models}
@ -137,7 +137,7 @@ Die \glslink{marginal}{marginal} Log-Likelihood (\cref{sec:Example: Gaussian Dis
\mathcal L = \log L(\bm\theta) = \sum_{i=1}^N \log \underbrace{p_{\bm\theta}(\bm x_i)}_{\text{marginal}}
= \sum_{i=1}^N \log \underbrace{\left( \sum_{k=1}^K \pi_k \nomeq{gaussian_distribution}(\bm x_i|\bm\mu_k,\nomeq{covariance}_k) \right)}_{\text{non-exponential family}}
\end{equation}
Um einen \nameref{cha:Gradient Descent} (\cref{cha:Gradient Descent}) auf diesen Daten durchzuführen,
Um einen \dref{cha:Gradient Descent} auf diesen Daten durchzuführen,
muss geprüft werden,
ob sich diese Funktion differenzieren lässt.
\begin{align} \label{eq:GMM_gradient_descent}
@ -148,7 +148,7 @@ ob sich diese Funktion differenzieren lässt.
&= \sum_{i=1}^N \nomeq{covariance}_j^{-1} (\bm x_i - \bm\mu_j)p(j|\bm x_i)
\end{align}
Dies zeigt,
dass der Einsatz des \nameref{cha:Gradient Descent} Verfahrens für \glspl{GMM} zwar möglich ist,
dass der Einsatz des \nameref{cha:Gradient Descent} Verfahrens (\cref{cha:Gradient Descent}) für \glspl{GMM} zwar möglich ist,
aber der Gradient von allen anderen Komponenten abhängig ist.
Zudem hat er keine \gls{closed_form_solution},
weshalb kein anderes (in der Vorlesung behandeltes) Verfahren als der \nameref{cha:Gradient Descent} in Frage kommt.

View File

@ -5,7 +5,7 @@ einen Datensatz mit vielen Features (hohe Dimensionalität) zu vereinfachen.
Dies ist vor allem dann hilfreich,
wenn die Daten visualisiert werden.
Zudem ist es ein guter Preprocessing Schritt für andere ML-Algorihmen.
Ein Beispiel hierfür ist die \nameref{cha:Linear Regression},
Ein Beispiel hierfür ist die \dref{cha:Linear Regression},
bei welcher eine Invertierung einer Matrix von nöten ist,
deren Größe von der Dimension der Datenpunkte abhängt.
Ist diese Dimension reduziert ergibt sich daraus logischerweise ein geringerer Rechenaufwand.
@ -96,7 +96,7 @@ ist definiert als
Die \say{second principal direction} ist der Basisvektor,
welcher als orthogonales Komplement des ersten Basisvektor die Varianz maximiert.
Das Maximierungsproblem kann in eine \nameref{cha:Constraint Optimization} (\cref{cha:Constraint Optimization}) umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
Das Maximierungsproblem kann in eine \dref{cha:Constraint Optimization} umgeschrieben werden (Herleitung: {\color{red} Gesamtfoliensatz Folie 653}).
\begin{equation} \label{eq:PCA_constrained_optimization}
\bm u_1 = \argmax_{\bm u} \bm u^T\nomeq{covariance}\bm u
\end{equation}

View File

@ -15,11 +15,11 @@ Das Ziel ist es die (\glslink{marginal}{marginal}) Log-Likelihood
\end{equation}
zu optimieren.
Zwei Verfahren für die Durchführung der \gls{EM} sind bekannt,
wobei in der Vorlesung nur auf die \nameref{sec:Decomposition in lower-bound and KL-term} eingegangen wird.
wobei in der Vorlesung nur auf die \dref{sec:Decomposition in lower-bound and KL-term} eingegangen wird.
Bei der \gls{EM} handelt es sich um ein Verfahren,
welches lediglich ein lokales Optimum findet,
weshalb die Initialisierung sehr wichtig ist.
Hierbei werden die Cluster-Mittelpunkte meist über den \nameref{sec:K-Means Algorithm}us approximiert und ein fester Wert für die Kovarianzen gewählt.
Hierbei werden die Cluster-Mittelpunkte meist über den \dref{sec:K-Means Algorithm}us approximiert und ein fester Wert für die Kovarianzen gewählt.
\section{Decomposition in lower-bound and \glstopshort{KL}-term}%
\label{sec:Decomposition in lower-bound and KL-term}
@ -52,7 +52,7 @@ welches die \gls{KL} Divergenz (\cref{sec:KL-Divergenz}) minimiert.
\begin{equation} \label{eq:expectation_step}
q(z) = \argmin_q \nomeq{kl_divergence}(q(z)\|p(z|\bm x))
\end{equation}
Für diskrete $z$ (z.B. bei \nameref{sec:Mixture Models}) hat dieses Problem eine \gls{closed_form_solution}.
Für diskrete $z$ (z.B. bei \dref{sec:Mixture Models}) hat dieses Problem eine \gls{closed_form_solution}.
\begin{equation} \label{eq:expectation_step_closed_form_solution}
q(z) = p(z|\bm x,\bm\theta_{\text{old}}) = \frac{p(\bm x,z|\bm\theta_{\text{old}})}{\sum_z p(\bm x,z|\bm\theta_{\text{old}})}
\end{equation}
@ -94,7 +94,7 @@ kann nun die Lower-Bound maximiert werden um im Gegenzug die gesamte Log-Likelih
\end{enumerate}
\end{mybox}
Aus \cref{sub:GMMs} ist bekannt,
dass die \glslink{marginal}{marginal} Log-Likelihood nicht gut für den \nameref{cha:Gradient Descent} (\cref{cha:Gradient Descent}) geeignet ist.
dass die \glslink{marginal}{marginal} Log-Likelihood nicht gut für den \dref{cha:Gradient Descent} geeignet ist.
Das Problem ist vor allem deshalb schwer zu lösen,
da nicht bekannt ist,
zu welcher Teil-Komponente des \gls{GMM} ein einzelner Datenpunkt gehört.
@ -127,6 +127,7 @@ bis das \gls{GMM} konvergiert.
\end{figure}
\section{\glstopshort{EM} for Dimensionality Reduction}%
\label{sec:EM for Dimensionality Reduction}
\begin{mybox}
\textbf{\Large \glsxtrshort{EM} for \nameref{cha:Dimensionality Reduction}} \\
\begin{enumerate}
@ -150,11 +151,10 @@ bis das \gls{GMM} konvergiert.
\end{align}
\end{enumerate}
\end{mybox}
\label{sec:EM for Dimensionality Reduction}
Das \gls{EM} Verfahren kann auch zur \nameref{cha:Dimensionality Reduction} (\cref{cha:Dimensionality Reduction}) verwendet werden.
Allerdings wird dieses Verfahren seit der Entdeckung der \nameref{sub:PCA} (\cref{sub:PCA}) kaum noch verwendet.
Das \gls{EM} Verfahren kann auch zur \dref{cha:Dimensionality Reduction} verwendet werden.
Allerdings wird dieses Verfahren seit der Entdeckung der \dref{sub:PCA} kaum noch verwendet.
Die \nameref{cha:Dimensionality Reduction} lässt sich als \gls{latent_variable_model} formulieren:
Die \dref{cha:Dimensionality Reduction} lässt sich als \gls{latent_variable_model} formulieren:
\begin{equation} \label{eq:dimensionality_reduction_latend_variable_model}
\bm x = \bm W \bm z + \bm\mu + \bm\epsilon
\end{equation}

View File

@ -1,6 +1,6 @@
\chapter{Kernel-Regression}%
\label{cha:Kernel-Regression}
Die Kernel Regression ist das Äquivalent der Linear \nameref{sub:Ridge Regression} (\cref{sub:Ridge Regression}),
Die Kernel Regression ist das Äquivalent der Linear \dref{sub:Ridge Regression},
weshalb es auch oft als Kernel Ridge Regression bezeichnet wird.
Die Linear Ridge Regression ist allerdings für den linearen Feature Space gedacht
und lässt sich nicht direkt in einem Feature Space mit unendlicher Dimension anwenden.
@ -37,7 +37,7 @@ Die Lösung der Kernel Ridge Regression wird daher gegeben durch:
\section{Selecting the hyper-parameters}%
\label{sub:Selecting the hyper-parameters}
Die Auswahl der passenden Hyperparameter (z.B. \nomsym{variance} für den \nameref{sub:Gaussian Kernel}) ist ein Model Selection Problem (\cref{cha:Model Selection}).
Die Auswahl der passenden Hyperparameter (z.B. \nomsym{variance} für den \dref{sub:Gaussian Kernel}) ist ein Model Selection Problem (\cref{cha:Model Selection}).
\begin{figure}[H]
\centering
\includegraphics[width=0.5\textwidth]{gaussian_kernel_model_selection.png}

View File

@ -84,7 +84,7 @@ Durch die Verwendung eines entsprechenden Kernels ist es möglich einen Datenpun
ohne dabei den eigentlichen Feature Vector errechnen zu müssen.
Es muss lediglich möglich sein,
das skalare Produkt von zwei Feature Vektoren zu bestimmen.
Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification} oder \nameref{cha:Linear Regression}) effizienter durchzuführen.
Dies ermöglicht es viele Algorithmen (z.B. \dref{cha:Linear Classification} oder \dref{cha:Linear Regression}) effizienter durchzuführen.
\section{Kernel Identities}%
@ -99,7 +99,7 @@ Dies ermöglicht es viele Algorithmen (z.B. \nameref{cha:Linear Classification}
\section{Kernels and Hyperparameters}%
\label{sec:Kernels and Hyperparameters}
Die Parameter eines Kernels werden als \nomf{hyper_parameters} bezeichnet.
Wenn man den \nameref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
Wenn man den \dref{sub:Gaussian Kernel} um eine length-scale $l_k$ für jede Dimension $k$ erweitert und alle \noms{hyper_parameters},
die meist nicht benötigt werden hinzufügt,
erhält man einen Kernel,
der auch als \gls{ARD} Kernel bezeichnet wird:
@ -120,7 +120,7 @@ Die Längenskalierung $l_k$ legt die Relevanz der jeweiligen Dimension fest (je
&= \argmax_{\nomeq{hyper_parameters}} -\frac{1}{2}\log|\bm C_{\nomeq{hyper_parameters}}| - \frac{1}{2}\bm y^T\bm C_{\nomeq{hyper_parameters}}\bm y - \frac{N}{2}\log(2\pi)
\end{align}
Leider ist diese zu optimierende Funktion nicht konvex,
weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren angesetzt werden kann
weshalb hier nur mit dem \nameref{sec:Gradient Descent} Verfahren (\cref{sec:Gradient Descent}) angesetzt werden kann
und auch hierbei potentiell nur ein lokales Optimum gefunden wird.
\subsubsection{Beispiele}%
\label{ssub:Beispiele}

View File

@ -156,7 +156,7 @@ Welche Loss Function $l$ verwendet werden sollte hängt dabei vom Anwendungsgebi
\section{Feature Learning}%
\label{sec:Feature Learning}
Die letzte Schicht eines Neural Networks macht im Prinzip nur eine \nameref{cha:Linear Regression},
Die letzte Schicht eines Neural Networks macht im Prinzip nur eine \dref{cha:Linear Regression},
welche durch die vorhergegangenen Schichten vorbereitet wird.
\begin{figure}[H]
\centering

View File

@ -7,7 +7,7 @@ und die Größe der Batches an die Anzahl der \gls{GPU} Rechenkerne angepasst is
\begin{equation} \label{eq:neural_networks:mini-batches}
\bm{\theta}_{t+1} = \bm{\theta}_t - \dfrac{\eta}{b}\sum_i \nabla_{\bm{\theta}} l(\bm{x}_i;\bm{\theta}_t)
\end{equation}
Um den Gradienten für die einzelnen Gewichte zu errechnen wird die \nameref{sec:Backpropagation} verwendet.
Um den Gradienten für die einzelnen Gewichte zu errechnen wird die \dref{sec:Backpropagation} verwendet.
\section{Backpropagation}%
\label{sec:Backpropagation}

View File

@ -37,7 +37,7 @@ Der Zustand ergibt sich aus der Rekurrenz Gleichung (recurrence formula).
\section{\texorpdfstring{\glsxtrfull{BPTT}}{\glsfmtfull{BPTT}}}%
\label{sec:BPTT}
Die Gewichte in einem \gls{RNN} können mithilfe von \gls{BPTT} angepasst werden.
Hierbei wird der Gradient wie bei der normalen \nameref{sec:Backpropagation} errechnet,
Hierbei wird der Gradient wie bei der normalen \dref{sec:Backpropagation} errechnet,
wobei zusätzlich noch die Differentiation in Zeitrichtung durchgeführt werden muss.
\begin{figure}[H]
\centering

View File

@ -49,7 +49,7 @@ welches auf diese Weise trainiert wurde getestet werden kann.
\paragraph{Drop Connect}%
\label{par:Drop Connect}
Eine Abwandlung von \nameref{par:Dropout},
Eine Abwandlung von \dref{par:Dropout},
bei der alle Neuronen erhalten bleiben und lediglich Kanten zwischen den Neuronen weggelassen werden.
\begin{figure}[H]
\centering