forked from TH_General/Template_Summary
Fixed warnings related to the use of glossaries in section titles.
This commit is contained in:
parent
824838fc9f
commit
5816431351
@ -53,7 +53,7 @@ $\bm{w}$ ist der Normalvektor (normal) zur Geraden und $b$ das Bias.
|
|||||||
\includegraphics[width=\textwidth]{linear_separability.png}
|
\includegraphics[width=\textwidth]{linear_separability.png}
|
||||||
|
|
||||||
\subsection{Optimization}%
|
\subsection{Optimization}%
|
||||||
\label{sub:Optimization}
|
\label{sub:Binary Classification:Optimization}
|
||||||
Um den linearen Klassifikator zu optimieren sind mehrere Methoden denkbar.
|
Um den linearen Klassifikator zu optimieren sind mehrere Methoden denkbar.
|
||||||
\subsubsection{0-1 loss}%
|
\subsubsection{0-1 loss}%
|
||||||
\label{ssub:0-1 loss}
|
\label{ssub:0-1 loss}
|
||||||
@ -210,7 +210,7 @@ Dies stellt eine Approximation des tatsächlich erwarteten Verlustes nach dem Pr
|
|||||||
\mathbb{E}_{\bm{x}}\left[l(\bm{x};\bm{\theta})\right]\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \eta\mathbb{E}_{\bm{x}}\left[\nabla_{\bm{\theta}} l(\bm{x};\bm{\theta}_t)\right]
|
\mathbb{E}_{\bm{x}}\left[l(\bm{x};\bm{\theta})\right]\qquad \bm{\theta}_{t+1} = \bm{\theta}_t - \eta\mathbb{E}_{\bm{x}}\left[\nabla_{\bm{\theta}} l(\bm{x};\bm{\theta}_t)\right]
|
||||||
\end{equation}
|
\end{equation}
|
||||||
|
|
||||||
\subsection{\glsxtrfull{SDG}}%
|
\subsection{\texorpdfstring{\glsxtrfull{SDG}}{\glsfmtfull{SDG}}}%
|
||||||
\label{sub:SDG}
|
\label{sub:SDG}
|
||||||
\begin{wrapfigure}{r}{.5\textwidth}
|
\begin{wrapfigure}{r}{.5\textwidth}
|
||||||
\vspace*{-15mm}
|
\vspace*{-15mm}
|
||||||
|
@ -83,7 +83,7 @@ Dies ermöglicht es mittels der linearen Regression auch jede nicht-lineare Funk
|
|||||||
indem eine passende \nomf{vector_valued_function} gefunden wird.
|
indem eine passende \nomf{vector_valued_function} gefunden wird.
|
||||||
|
|
||||||
\subsection{Beispiele}%
|
\subsection{Beispiele}%
|
||||||
\label{sub:Beispiele}
|
\label{sub:linear Regression:Beispiele}
|
||||||
\subsubsection{Polynomial Curve Fitting}%
|
\subsubsection{Polynomial Curve Fitting}%
|
||||||
\label{ssub:Polynomial Curve Fitting}
|
\label{ssub:Polynomial Curve Fitting}
|
||||||
\begin{wrapfigure}{r}{.4\textwidth}
|
\begin{wrapfigure}{r}{.4\textwidth}
|
||||||
|
@ -101,7 +101,7 @@ Um die Nachteile der \nameref{sub:Hold-out Mehtod} zu umgehen wird meist die Cro
|
|||||||
|
|
||||||
\subsubsection{Sonderformen der Cross Validation}%
|
\subsubsection{Sonderformen der Cross Validation}%
|
||||||
\label{ssub:Sonderformen der Cross Validation}
|
\label{ssub:Sonderformen der Cross Validation}
|
||||||
\paragraph{\glsxtrfull{LLO} Cross Validation}%
|
\paragraph{\texorpdfstring{\glsxtrfull{LLO} Cross Validation}{\glsfmtfull{LLO} Cross Validation}}%
|
||||||
\label{par:LLO Cross Validation}
|
\label{par:LLO Cross Validation}
|
||||||
Sonderform, bei der $k=n$,
|
Sonderform, bei der $k=n$,
|
||||||
wodurch es genau so viele Durchläufe wie Datenpunkte gibt
|
wodurch es genau so viele Durchläufe wie Datenpunkte gibt
|
||||||
@ -158,7 +158,7 @@ Man spricht hierbei von Data Augmentation.
|
|||||||
\centering
|
\centering
|
||||||
\includegraphics[width=\linewidth]{artificial_noise2.png}
|
\includegraphics[width=\linewidth]{artificial_noise2.png}
|
||||||
\caption{mögl. Diskriminanten mit künstlichen Noise}
|
\caption{mögl. Diskriminanten mit künstlichen Noise}
|
||||||
\label{fig:regression_without_artifical_noise}
|
\label{fig:regression_with_artifical_noise}
|
||||||
\end{subfigure}
|
\end{subfigure}
|
||||||
\caption{Einfluss von künstlichen Noise}
|
\caption{Einfluss von künstlichen Noise}
|
||||||
\label{fig:artificial_noise}
|
\label{fig:artificial_noise}
|
||||||
|
@ -1,6 +1,6 @@
|
|||||||
\chapter{Trees and Forests}%
|
\chapter{Trees and Forests}%
|
||||||
\label{cha:Trees and Forests}
|
\label{cha:Trees and Forests}
|
||||||
\section{\glsxtrfull{CART}}%
|
\section{\texorpdfstring{\glsxtrfull{CART}}{\glsfmtfull{CART}}}%
|
||||||
\label{sec:CART}
|
\label{sec:CART}
|
||||||
|
|
||||||
\begin{wrapfigure}[8]{r}{.5\textwidth}
|
\begin{wrapfigure}[8]{r}{.5\textwidth}
|
||||||
@ -77,7 +77,7 @@ In dieser Formel gibt $p_L(k)$ an,
|
|||||||
welchen Anteil die Klasse $k$ auf der linken Seite des Splits hat.
|
welchen Anteil die Klasse $k$ auf der linken Seite des Splits hat.
|
||||||
|
|
||||||
\subsection{Beispiele}%
|
\subsection{Beispiele}%
|
||||||
\label{sub:Beispiele}
|
\label{sub:CART:Beispiele}
|
||||||
\subsubsection{Classification Tree}%
|
\subsubsection{Classification Tree}%
|
||||||
\label{ssub:Classification Tree}
|
\label{ssub:Classification Tree}
|
||||||
\includegraphics[width=.6\textwidth]{classification_tree.png}
|
\includegraphics[width=.6\textwidth]{classification_tree.png}
|
||||||
|
@ -1,4 +1,4 @@
|
|||||||
\chapter{\glsfmtfull{knn}}%
|
\chapter[\glsfmtfull{knn}]{\texorpdfstring{\glsxtrfull{knn}}{\glsfmtfull{knn}}}%
|
||||||
\label{cha:k-Nearest Neighbors}
|
\label{cha:k-Nearest Neighbors}
|
||||||
Beim \gls{knn}-Verfahren wird dem System eine Reihe von gelabelten Trainingsdaten übergeben.
|
Beim \gls{knn}-Verfahren wird dem System eine Reihe von gelabelten Trainingsdaten übergeben.
|
||||||
Für die Klassifizierung erfolgt durch
|
Für die Klassifizierung erfolgt durch
|
||||||
|
@ -60,7 +60,7 @@ Dies liegt vor allem an den folgenden Einflüssen:
|
|||||||
\end{itemize}
|
\end{itemize}
|
||||||
|
|
||||||
\section{Anwendungsbeispiele}%
|
\section{Anwendungsbeispiele}%
|
||||||
\label{sec:Anwendungsbeispiele}
|
\label{sec:ML:Anwendungsbeispiele}
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
\item Handschrifterkennung: Klassifizierungsproblem
|
\item Handschrifterkennung: Klassifizierungsproblem
|
||||||
\item Gesichtserkennung: Klassifizierungsproblem
|
\item Gesichtserkennung: Klassifizierungsproblem
|
||||||
|
@ -45,7 +45,7 @@ Die Auswahl der passenden Hyperparameter (z.B. \nomsym{variance} für den \namer
|
|||||||
\label{fig:gaussian_kernel_model_selection}
|
\label{fig:gaussian_kernel_model_selection}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\section{Examples and comparison to \glsxtrshort{RBF} regression}%
|
\section{Examples and comparison to \texorpdfstring{\glsxtrshort{RBF}}{\glsfmtshort{RBF}} regression}%
|
||||||
\label{sec:Examples and comparison to RBF regression}
|
\label{sec:Examples and comparison to RBF regression}
|
||||||
\begin{center}
|
\begin{center}
|
||||||
\includegraphics[width=.9\textwidth]{kernel_regression_comparison.pdf}
|
\includegraphics[width=.9\textwidth]{kernel_regression_comparison.pdf}
|
||||||
|
@ -1,4 +1,4 @@
|
|||||||
\chapter{\glsfmtfull{SVM}}%
|
\chapter{\texorpdfstring{\glsxtrfull{SVM}}{\glsfmtfull{SVM}}}%
|
||||||
\label{cha:SVM}
|
\label{cha:SVM}
|
||||||
\glspl{SVM} sind eine Methode zur binären Klassifikation (\cref{sec:Binary Classification}).
|
\glspl{SVM} sind eine Methode zur binären Klassifikation (\cref{sec:Binary Classification}).
|
||||||
Anders als bei anderen Algorithmen werden die Klassen hierbei nicht mit 0 und 1,
|
Anders als bei anderen Algorithmen werden die Klassen hierbei nicht mit 0 und 1,
|
||||||
@ -52,7 +52,7 @@ dass $\nomeq{margin}=\frac{2}{\|\bm w\|}$ ist.
|
|||||||
\begin{wrapfigure}{r}{.5\textwidth}
|
\begin{wrapfigure}{r}{.5\textwidth}
|
||||||
\centering
|
\centering
|
||||||
\includegraphics[width=\linewidth]{svm_positive_negative_support.png}
|
\includegraphics[width=\linewidth]{svm_positive_negative_support.png}
|
||||||
\caption{Support Vektoren einer \glsxtrshort{SVM}}
|
\caption{Support Vektoren einer \texorpdfstring{\glsxtrshort{SVM}}{\glsxfmtshort{SVM}}}
|
||||||
\label{fig:svm_positive_negative_support}
|
\label{fig:svm_positive_negative_support}
|
||||||
\vspace*{-10mm}
|
\vspace*{-10mm}
|
||||||
\end{wrapfigure}
|
\end{wrapfigure}
|
||||||
@ -62,7 +62,7 @@ Zudem lassen sich im gleichen Zug die positiven und negativen Support Vektoren d
|
|||||||
\item negativer Support Vektor: $\bm w^T \bm x_- + b = +1$
|
\item negativer Support Vektor: $\bm w^T \bm x_- + b = +1$
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
|
|
||||||
\subsection{\glsxtrshort{SVM} Optimization}%
|
\subsection{\texorpdfstring{\glsxtrshort{SVM} Optimization}{\glsfmtshort{SVM} Optimization}}%
|
||||||
\label{sub:SVM Optimization}
|
\label{sub:SVM Optimization}
|
||||||
Das Problem ist für das Maximum Margin Verfahren gegeben durch:
|
Das Problem ist für das Maximum Margin Verfahren gegeben durch:
|
||||||
\begin{equation} \label{eq:maximum_margin_optimization_problem}
|
\begin{equation} \label{eq:maximum_margin_optimization_problem}
|
||||||
@ -117,7 +117,7 @@ Die Interpretation der \noms{slack-variable} erfolgt dabei wie folgt:
|
|||||||
\end{figure}
|
\end{figure}
|
||||||
|
|
||||||
\subsection{Optimization}%
|
\subsection{Optimization}%
|
||||||
\label{sub:Optimization}
|
\label{sub:Soft Max-Margin:Optimization}
|
||||||
Das Optimierungsproblem für die Soft Max-Margin Methode ist gegeben durch:
|
Das Optimierungsproblem für die Soft Max-Margin Methode ist gegeben durch:
|
||||||
\begin{equation} \label{eq:soft_max-margin_optimization}
|
\begin{equation} \label{eq:soft_max-margin_optimization}
|
||||||
\argmin_{\bm w, \bm\xi} \|\bm w\|^2 + C\sum_i^N\nomeq{slack-variable}\qquad y_i(\bm w^T\bm x_i + b)\ge 1-\nomeq{slack-variable}, \nomeq{slack-variable}\ge 0
|
\argmin_{\bm w, \bm\xi} \|\bm w\|^2 + C\sum_i^N\nomeq{slack-variable}\qquad y_i(\bm w^T\bm x_i + b)\ge 1-\nomeq{slack-variable}, \nomeq{slack-variable}\ge 0
|
||||||
@ -154,10 +154,10 @@ Im Falle des Hinge Loss bedeutet das:
|
|||||||
\end{equation}
|
\end{equation}
|
||||||
|
|
||||||
\section{Anwendungsbeispiele}%
|
\section{Anwendungsbeispiele}%
|
||||||
\label{sec:Anwendungsbeispiele}
|
\label{sec:SVM:Anwendungsbeispiele}
|
||||||
{\color{red} siehe Vorlesung 06 Folien 34 ff.}
|
{\color{red} siehe Vorlesung 06 Folien 34 ff.}
|
||||||
|
|
||||||
\section{\glsxtrshortpl{SVM} with Kernels}%
|
\section{\texorpdfstring{\glsxtrshortpl{SVM} with Kernels}{\glsfmtshortpl{SVM} with Kernels}}%
|
||||||
\label{sec:SVMs with Kernels}
|
\label{sec:SVMs with Kernels}
|
||||||
Mithilfe des Kernel Tricks (\cref{sec:Kernel Trick}) und der Lagrangian Optimization (\cref{sec:Lagrangian Multipliers}) kann die \gls{SVM}-Optimierung als Dual Optimization Problem formuliert werden ({\color{red} Herleitung Vorlesung 06 Folien 52-56}):
|
Mithilfe des Kernel Tricks (\cref{sec:Kernel Trick}) und der Lagrangian Optimization (\cref{sec:Lagrangian Multipliers}) kann die \gls{SVM}-Optimierung als Dual Optimization Problem formuliert werden ({\color{red} Herleitung Vorlesung 06 Folien 52-56}):
|
||||||
\begin{itemize}
|
\begin{itemize}
|
||||||
@ -185,6 +185,6 @@ Die verstellbaren Parameter sind hierbei:
|
|||||||
\item die Parameter des gewählten Kernels
|
\item die Parameter des gewählten Kernels
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
|
|
||||||
\subsection{Beispiele}%
|
\subsubsection{Beispiele}%
|
||||||
\label{sub:Beispiele}
|
\label{ssub:SVM:Model Selection:Beispiele}
|
||||||
{\color{red} siehe Vorlesung 06 Folien 57-60 und 62-63}
|
{\color{red} siehe Vorlesung 06 Folien 57-60 und 62-63}
|
||||||
|
@ -167,7 +167,7 @@ Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} volls
|
|||||||
\item die Summe von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
|
\item die Summe von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
|
|
||||||
\section{\glsxtrfull{MLE}}%
|
\section{\texorpdfstring{\glsxtrfull{MLE}}{\glsfmtfull{MLE}}}%
|
||||||
\label{sec:MLE}
|
\label{sec:MLE}
|
||||||
Für einen gegebenen Trainingsdatensatz $D=\{(x_i,y_i)\}_{i=1\dots N}$ von unabhängig und identisch verteilten Zufallsvariablen (\gls{iid})
|
Für einen gegebenen Trainingsdatensatz $D=\{(x_i,y_i)\}_{i=1\dots N}$ von unabhängig und identisch verteilten Zufallsvariablen (\gls{iid})
|
||||||
auf Basis einer Wahrscheinlichkeitsdichtefunktion $p_{\text{data}}$ soll ein $\bm{\theta}$ gefunden werden,
|
auf Basis einer Wahrscheinlichkeitsdichtefunktion $p_{\text{data}}$ soll ein $\bm{\theta}$ gefunden werden,
|
||||||
@ -183,7 +183,7 @@ In Bezug auf den Gesamten Datensatz bedeutet dies:
|
|||||||
\text{lik}(\bm{\theta};D) = \prod_i p_{\bm{\theta}}(x_i,y_i)
|
\text{lik}(\bm{\theta};D) = \prod_i p_{\bm{\theta}}(x_i,y_i)
|
||||||
\end{equation}
|
\end{equation}
|
||||||
Und die Log-likelihood ist definiert durch:
|
Und die Log-likelihood ist definiert durch:
|
||||||
\begin{equation} \label{eq:fittness_theta_whole_dataset}
|
\begin{equation} \label{eq:loglik_theta_whole_dataset}
|
||||||
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(x_i,y_i)
|
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(x_i,y_i)
|
||||||
\end{equation}
|
\end{equation}
|
||||||
Dieser wird zumeist für die Optimierung vewendet, da
|
Dieser wird zumeist für die Optimierung vewendet, da
|
||||||
@ -211,7 +211,7 @@ In diesem Zusammenhang berechnet sich die \gls{MLE} durch:
|
|||||||
\nomeq{mean} &= \dfrac{\sum_i x_i}{N}
|
\nomeq{mean} &= \dfrac{\sum_i x_i}{N}
|
||||||
\end{align}
|
\end{align}
|
||||||
|
|
||||||
\subsection{\glsxtrshort{MLE}: conditional log-likelihood}%
|
\subsection{\texorpdfstring{\glsxtrshort{MLE}}{\glsfmtshort{MLE}}: conditional log-likelihood}%
|
||||||
\label{sub:MLE: conditional log-likelihood}
|
\label{sub:MLE: conditional log-likelihood}
|
||||||
\begin{equation} \label{eq:MLE:conditional}
|
\begin{equation} \label{eq:MLE:conditional}
|
||||||
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i)
|
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i)
|
||||||
|
Loading…
x
Reference in New Issue
Block a user