unsupervised learning finished

This commit is contained in:
2021-01-29 10:35:35 +01:00
parent 7e21367ccd
commit 6eb205463c
10 changed files with 46 additions and 13 deletions

View File

@@ -63,7 +63,7 @@
\subsection{Beispiel: symmetrischer Lernalgorithmus}
\includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus_symmetrisch.png}
\section{\acs{VC-Dimension}}\label{vc-dimension}
\section{\ac{VC-Dimension}}\label{vc-dimension}
Die \acl{VC-Dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung.
\subsection{Shattering}
@@ -135,7 +135,7 @@
\begin{itemize}
\item $N$: Anzahl der Trainingsdatenpunkte
\item $\kappa$: das \say{confidence level}, $0\le\kappa\le1$
\item $h$: \acs{VC-Dimension} (\ref{vc-dimension})
\item $h$: \ac{VC-Dimension} (\ref{vc-dimension})
\end{itemize}
\includegraphics[width=.8\textwidth]{risk-bound.png}
@@ -150,7 +150,7 @@
\includegraphics[width=.6\textwidth]{structural_risk.png}
\subsubsection{\acl{SRM}}
Das strukurelle Risiko kann entweder dadurch reduziert werden,
\ac{SRM} kann entweder dadurch erreicht werden,
dass das empirische Risiko (\ref{empirical risk}) bei gleichbleibenden $\varepsilon$ (\ref{capacity term}) reduziert wird,
oder durch eine Reduzierung von $\varepsilon$ bei gleichbleibenden empirishen Risiko.
Letzteres ist der Ansatz den die \acs{SVM}s (\ref{svm}) verfolgen.
oder durch eine Reduzierung von $\varepsilon$ bei gleichbleibenden empirischen Risiko.
Letzteres ist der Ansatz den die \ac{SVM}s (\ref{svm}) verfolgen.

View File

@@ -1,5 +1,5 @@
\chapter{\acl{SVM}}\label{svm}
\acs{SVM}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\
\ac{SVM}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\
\begin{tabular}{|p{.475\textwidth}|p{.475\textwidth}|}
\hline
\textbf{Vorteile} & \textbf{Nachteile}\\
@@ -63,7 +63,7 @@
\frac{\delta L_\alpha}{\delta w_0} &= 0 \Rightarrow \sum^N_{i=1}\alpha_i \cdot g_i = 0\\
\frac{\delta L_\alpha}{\delta \bm{w}} &= 0 \Rightarrow \bm{w} - \sum^N_{i=1}\alpha_i \cdot \bm{m}_i \cdot g_i = 0 \rightarrow \bm{w} = \sum^N_{i=1}\alpha_i \cdot g_i \cdot \bm{m}_i
\end{align*}
Hieraus ergeben sich die \acl{KKT} Bedingungen
Hieraus ergeben sich die \ac{KKT}-Bedingungen
\begin{align*}
(\bm{w}^T\bm{m}_i + w_0)\cdot g_i - 1 &\ge 0 \\
\alpha_i &\ge 0 \\
@@ -72,10 +72,10 @@
Jeder Datenpunkt, für den $\alpha_i>0$ gilt, ist ein \say{support vector}.
\subsubsection{Sparsity}
\acs{SVM}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen.
\ac{SVM}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen.
\section{nicht-lineare \acl{SVM}}\label{non linear svm}
\acs{SVM}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen.
\ac{SVM}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen.
Hierfür müssen einige mathematischen Tricks angewandt werden.
\subsection{Dual Representation **}
@@ -119,13 +119,14 @@
\includegraphics[width=.8\textwidth]{kernel_trick_polynomial_kernel.png}
\subsubsection{Beispiel: Gausian \acl{RBF} Kernel}
Der \say{Gausian \ac{RBF}} Kernel ist definiert durch:
$$K(\bm{m}_i,\bm{m}_j) = \exp\left(-\frac{||\bm{m}_1-\bm{m}_2||^2}{2\sigma^2}\right)$$
\includegraphics[width=\textwidth]{kernel_trick_example.png}
\section{Soft Margin}
Falls Daten vorliegen, die nicht \say{einfach} (\ref{occam's razor}) separierbar sind ist es zwar möglich den Feature Space so zu transformieren, dass er linear separierbar wird,
allerdings ist dies wenig sinnvoll.
Hierbei ist die \acs{VC-Dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist.
Hierbei ist die \ac{VC-Dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist.
Dieses Problem kann umgangen werden, indem mittels \say{soft margins} zugelassen wird, dass eine geringe Anzahl an Datenpunkten auf der falschen Seite der Diskriminanten liegt.\\
\includegraphics[width=.6\textwidth]{soft_margin.png}