Fixed warnings related to the use of glossaries in section titles.

This commit is contained in:
paul-loedige 2022-02-14 09:49:51 +01:00
parent 824838fc9f
commit 5816431351
9 changed files with 21 additions and 21 deletions

View File

@ -53,7 +53,7 @@ $\bm{w}$ ist der Normalvektor (normal) zur Geraden und $b$ das Bias.
\includegraphics[width=\textwidth]{linear_separability.png}
\subsection{Optimization}%
\label{sub:Optimization}
\label{sub:Binary Classification:Optimization}
Um den linearen Klassifikator zu optimieren sind mehrere Methoden denkbar.
\subsubsection{0-1 loss}%
\label{ssub:0-1 loss}
@ -210,7 +210,7 @@ Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Pr
\mathbb{E}_{\bm{x}}\left[l(\bm{x};\bm{\theta})\right]\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \eta\mathbb{E}_{\bm{x}}\left[\nabla_{\bm{\theta}} l(\bm{x};\bm{\theta}_t)\right]
\end{equation}
\subsection{\glsxtrfull{SDG}}%
\subsection{\texorpdfstring{\glsxtrfull{SDG}}{\glsfmtfull{SDG}}}%
\label{sub:SDG}
\begin{wrapfigure}{r}{.5\textwidth}
\vspace*{-15mm}

View File

@ -83,7 +83,7 @@ Dies ermöglicht es mittels der linearen Regression auch jede nicht-lineare Funk
indem eine passende \nomf{vector_valued_function} gefunden wird.
\subsection{Beispiele}%
\label{sub:Beispiele}
\label{sub:linear Regression:Beispiele}
\subsubsection{Polynomial Curve Fitting}%
\label{ssub:Polynomial Curve Fitting}
\begin{wrapfigure}{r}{.4\textwidth}

View File

@ -101,7 +101,7 @@ Um die Nachteile der \nameref{sub:Hold-out Mehtod} zu umgehen wird meist die Cro
\subsubsection{Sonderformen der Cross Validation}%
\label{ssub:Sonderformen der Cross Validation}
\paragraph{\glsxtrfull{LLO} Cross Validation}%
\paragraph{\texorpdfstring{\glsxtrfull{LLO} Cross Validation}{\glsfmtfull{LLO} Cross Validation}}%
\label{par:LLO Cross Validation}
Sonderform, bei der $k=n$,
wodurch es genau so viele Durchläufe wie Datenpunkte gibt
@ -158,7 +158,7 @@ Man spricht hierbei von Data Augmentation.
\centering
\includegraphics[width=\linewidth]{artificial_noise2.png}
\caption{mögl. Diskriminanten mit künstlichen Noise}
\label{fig:regression_without_artifical_noise}
\label{fig:regression_with_artifical_noise}
\end{subfigure}
\caption{Einfluss von künstlichen Noise}
\label{fig:artificial_noise}

View File

@ -1,6 +1,6 @@
\chapter{Trees and Forests}%
\label{cha:Trees and Forests}
\section{\glsxtrfull{CART}}%
\section{\texorpdfstring{\glsxtrfull{CART}}{\glsfmtfull{CART}}}%
\label{sec:CART}
\begin{wrapfigure}[8]{r}{.5\textwidth}
@ -77,7 +77,7 @@ In dieser Formel gibt $p_L(k)$ an,
welchen Anteil die Klasse $k$ auf der linken Seite des Splits hat.
\subsection{Beispiele}%
\label{sub:Beispiele}
\label{sub:CART:Beispiele}
\subsubsection{Classification Tree}%
\label{ssub:Classification Tree}
\includegraphics[width=.6\textwidth]{classification_tree.png}

View File

@ -1,4 +1,4 @@
\chapter{\glsfmtfull{knn}}%
\chapter[\glsfmtfull{knn}]{\texorpdfstring{\glsxtrfull{knn}}{\glsfmtfull{knn}}}%
\label{cha:k-Nearest Neighbors}
Beim \gls{knn}-Verfahren wird dem System eine Reihe von gelabelten Trainingsdaten übergeben.
Für die Klassifizierung erfolgt durch

View File

@ -60,7 +60,7 @@ Dies liegt vor allem an den folgenden Einflüssen:
\end{itemize}
\section{Anwendungsbeispiele}%
\label{sec:Anwendungsbeispiele}
\label{sec:ML:Anwendungsbeispiele}
\begin{itemize}
\item Handschrifterkennung: Klassifizierungsproblem
\item Gesichtserkennung: Klassifizierungsproblem

View File

@ -45,7 +45,7 @@ Die Auswahl der passenden Hyperparameter (z.B. \nomsym{variance} für den \namer
\label{fig:gaussian_kernel_model_selection}
\end{figure}
\section{Examples and comparison to \glsxtrshort{RBF} regression}%
\section{Examples and comparison to \texorpdfstring{\glsxtrshort{RBF}}{\glsfmtshort{RBF}} regression}%
\label{sec:Examples and comparison to RBF regression}
\begin{center}
\includegraphics[width=.9\textwidth]{kernel_regression_comparison.pdf}

View File

@ -1,4 +1,4 @@
\chapter{\glsfmtfull{SVM}}%
\chapter{\texorpdfstring{\glsxtrfull{SVM}}{\glsfmtfull{SVM}}}%
\label{cha:SVM}
\glspl{SVM} sind eine Methode zur binären Klassifikation (\cref{sec:Binary Classification}).
Anders als bei anderen Algorithmen werden die Klassen hierbei nicht mit 0 und 1,
@ -52,7 +52,7 @@ dass $\nomeq{margin}=\frac{2}{\|\bm w\|}$ ist.
\begin{wrapfigure}{r}{.5\textwidth}
\centering
\includegraphics[width=\linewidth]{svm_positive_negative_support.png}
\caption{Support Vektoren einer \glsxtrshort{SVM}}
\caption{Support Vektoren einer \texorpdfstring{\glsxtrshort{SVM}}{\glsxfmtshort{SVM}}}
\label{fig:svm_positive_negative_support}
\vspace*{-10mm}
\end{wrapfigure}
@ -62,7 +62,7 @@ Zudem lassen sich im gleichen Zug die positiven und negativen Support Vektoren d
\item negativer Support Vektor: $\bm w^T \bm x_- + b = +1$
\end{itemize}
\subsection{\glsxtrshort{SVM} Optimization}%
\subsection{\texorpdfstring{\glsxtrshort{SVM} Optimization}{\glsfmtshort{SVM} Optimization}}%
\label{sub:SVM Optimization}
Das Problem ist für das Maximum Margin Verfahren gegeben durch:
\begin{equation} \label{eq:maximum_margin_optimization_problem}
@ -117,7 +117,7 @@ Die Interpretation der \noms{slack-variable} erfolgt dabei wie folgt:
\end{figure}
\subsection{Optimization}%
\label{sub:Optimization}
\label{sub:Soft Max-Margin:Optimization}
Das Optimierungsproblem für die Soft Max-Margin Methode ist gegeben durch:
\begin{equation} \label{eq:soft_max-margin_optimization}
\argmin_{\bm w, \bm\xi} \|\bm w\|^2 + C\sum_i^N\nomeq{slack-variable}\qquad y_i(\bm w^T\bm x_i + b)\ge 1-\nomeq{slack-variable}, \nomeq{slack-variable}\ge 0
@ -154,10 +154,10 @@ Im Falle des Hinge Loss bedeutet das:
\end{equation}
\section{Anwendungsbeispiele}%
\label{sec:Anwendungsbeispiele}
\label{sec:SVM:Anwendungsbeispiele}
{\color{red} siehe Vorlesung 06 Folien 34 ff.}
\section{\glsxtrshortpl{SVM} with Kernels}%
\section{\texorpdfstring{\glsxtrshortpl{SVM} with Kernels}{\glsfmtshortpl{SVM} with Kernels}}%
\label{sec:SVMs with Kernels}
Mithilfe des Kernel Tricks (\cref{sec:Kernel Trick}) und der Lagrangian Optimization (\cref{sec:Lagrangian Multipliers}) kann die \gls{SVM}-Optimierung als Dual Optimization Problem formuliert werden ({\color{red} Herleitung Vorlesung 06 Folien 52-56}):
\begin{itemize}
@ -185,6 +185,6 @@ Die verstellbaren Parameter sind hierbei:
\item die Parameter des gewählten Kernels
\end{itemize}
\subsection{Beispiele}%
\label{sub:Beispiele}
\subsubsection{Beispiele}%
\label{ssub:SVM:Model Selection:Beispiele}
{\color{red} siehe Vorlesung 06 Folien 57-60 und 62-63}

View File

@ -167,7 +167,7 @@ Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} volls
\item die Summe von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
\end{itemize}
\section{\glsxtrfull{MLE}}%
\section{\texorpdfstring{\glsxtrfull{MLE}}{\glsfmtfull{MLE}}}%
\label{sec:MLE}
Für einen gegebenen Trainingsdatensatz $D=\{(x_i,y_i)\}_{i=1\dots N}$ von unabhängig und identisch verteilten Zufallsvariablen (\gls{iid})
auf Basis einer Wahrscheinlichkeitsdichtefunktion $p_{\text{data}}$ soll ein $\bm{\theta}$ gefunden werden,
@ -183,7 +183,7 @@ In Bezug auf den Gesamten Datensatz bedeutet dies:
\text{lik}(\bm{\theta};D) = \prod_i p_{\bm{\theta}}(x_i,y_i)
\end{equation}
Und die Log-likelihood ist definiert durch:
\begin{equation} \label{eq:fittness_theta_whole_dataset}
\begin{equation} \label{eq:loglik_theta_whole_dataset}
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(x_i,y_i)
\end{equation}
Dieser wird zumeist für die Optimierung vewendet, da
@ -211,7 +211,7 @@ In diesem Zusammenhang berechnet sich die \gls{MLE} durch:
\nomeq{mean} &= \dfrac{\sum_i x_i}{N}
\end{align}
\subsection{\glsxtrshort{MLE}: conditional log-likelihood}%
\subsection{\texorpdfstring{\glsxtrshort{MLE}}{\glsfmtshort{MLE}}: conditional log-likelihood}%
\label{sub:MLE: conditional log-likelihood}
\begin{equation} \label{eq:MLE:conditional}
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i)