added clustering algorithms and changed acronyms

This commit is contained in:
2021-01-28 16:22:16 +01:00
parent e5cb5ef2f4
commit 93b3f58029
17 changed files with 142 additions and 57 deletions

View File

@@ -1,30 +0,0 @@
\chapter{Hierachische Verfahren}
\includegraphics[width = \textwidth]{hierachische Verfahren.png}
Eine hierarchische Clusterung lässt sich mithilfe eines Dendogramms darstellen:\\
\includegraphics[width=.6\textwidth]{dendogramm.png}
\section{Algorithmus}
\begin{enumerate}
\item erzeuge für jeden Punkt aus dem Datensatz ein separates Cluster
\item Berechne den Abstand zwischen allen Clustern
\item Verschmelze die beiden Cluster, die den geringsten Abstand zueinander haben
\item Aktualisiere die Distanzen zwischen den Clustern bis alle Punkte in dem gleichen Cluster liegen
\item goto 3.
\end{enumerate}
Meistens wird in den Algorithmus eine Abbruchbedingung eingebaut, damit nicht alle Elemente in dem gleichen Cluster zusammengefasst werden.
Diese Abbruchbedingung definiert sich über den maximalen Abstand der Elemente in einem Cluster.
\section{Abstand zwischen Clustern}
Es gibt mehrer Möglichkeiten um den Abstand zwischen zwei Clustern festzustellen
\paragraph{Single Link}\mbox{}\\
\includegraphics[width=.8\textwidth]{single-link.png}
\paragraph{Complete Link}\mbox{}\\
\includegraphics[width=.8\textwidth]{complete-link.png}
\paragraph{Average Link}\mbox{}\\
\includegraphics[width=.8\textwidth]{average-link.png}
\paragraph{Abstand der Zentroide der beiden Cluster}\mbox{}\\
\includegraphics[width=.8\textwidth]{centroid-distance.png}

View File

@@ -63,8 +63,8 @@
\subsection{Beispiel: symmetrischer Lernalgorithmus}
\includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus_symmetrisch.png}
\section{\acs{vc-dimension}}\label{vc-dimension}
Die \acl{vc-dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung.
\section{\acs{VC-Dimension}}\label{vc-dimension}
Die \acl{VC-Dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung.
\subsection{Shattering}
\say{Here we will only consider functions that correspond to the two-class pattern recognition case, so that $g(\bm{m}, y) \in \{-1, 1\}\forall x, y$.
@@ -135,7 +135,7 @@
\begin{itemize}
\item $N$: Anzahl der Trainingsdatenpunkte
\item $\kappa$: das \say{confidence level}, $0\le\kappa\le1$
\item $h$: \acs{vc-dimension} (\ref{vc-dimension})
\item $h$: \acs{VC-Dimension} (\ref{vc-dimension})
\end{itemize}
\includegraphics[width=.8\textwidth]{risk-bound.png}
@@ -149,8 +149,8 @@
Das Strukturelle Risiko wird durch das empirische Risiko $R_{emp}(\bm{w})$ (\ref{empirical risk}) und den Kapazitätsterm $\varepsilon(N,\kappa,h)$ (\ref{capacity term}) definiert.\\
\includegraphics[width=.6\textwidth]{structural_risk.png}
\subsubsection{\acl{srm}}
\subsubsection{\acl{SRM}}
Das strukurelle Risiko kann entweder dadurch reduziert werden,
dass das empirische Risiko (\ref{empirical risk}) bei gleichbleibenden $\varepsilon$ (\ref{capacity term}) reduziert wird,
oder durch eine Reduzierung von $\varepsilon$ bei gleichbleibenden empirishen Risiko.
Letzteres ist der Ansatz den die \acs{svm}s (\ref{svm}) verfolgen.
Letzteres ist der Ansatz den die \acs{SVM}s (\ref{svm}) verfolgen.

View File

@@ -1,5 +1,5 @@
\chapter{\acl{svm}}\label{svm}
\acs{svm}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\
\chapter{\acl{SVM}}\label{svm}
\acs{SVM}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\
\begin{tabular}{|p{.475\textwidth}|p{.475\textwidth}|}
\hline
\textbf{Vorteile} & \textbf{Nachteile}\\
@@ -16,7 +16,7 @@
\hline
\end{tabular}
\section{lineare \acl{svm}}
\section{lineare \acl{SVM}}
\begin{wrapfigure}{h}{.6\textwidth}
\vspace{-10mm}
\includegraphics[width=.6\textwidth]{svm_base.png}
@@ -63,7 +63,7 @@
\frac{\delta L_\alpha}{\delta w_0} &= 0 \Rightarrow \sum^N_{i=1}\alpha_i \cdot g_i = 0\\
\frac{\delta L_\alpha}{\delta \bm{w}} &= 0 \Rightarrow \bm{w} - \sum^N_{i=1}\alpha_i \cdot \bm{m}_i \cdot g_i = 0 \rightarrow \bm{w} = \sum^N_{i=1}\alpha_i \cdot g_i \cdot \bm{m}_i
\end{align*}
Hieraus ergeben sich die \acl{kkt} Bedingungen
Hieraus ergeben sich die \acl{KKT} Bedingungen
\begin{align*}
(\bm{w}^T\bm{m}_i + w_0)\cdot g_i - 1 &\ge 0 \\
\alpha_i &\ge 0 \\
@@ -72,10 +72,10 @@
Jeder Datenpunkt, für den $\alpha_i>0$ gilt, ist ein \say{support vector}.
\subsubsection{Sparsity}
\acs{svm}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen.
\acs{SVM}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen.
\section{nicht-lineare \acl{svm}}\label{non linear svm}
\acs{svm}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen.
\section{nicht-lineare \acl{SVM}}\label{non linear svm}
\acs{SVM}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen.
Hierfür müssen einige mathematischen Tricks angewandt werden.
\subsection{Dual Representation **}
@@ -118,14 +118,14 @@
\subsection{Polynomialer Kernel}
\includegraphics[width=.8\textwidth]{kernel_trick_polynomial_kernel.png}
\subsubsection{Beispiel: Gausian \acl{rbf} Kernel}
\subsubsection{Beispiel: Gausian \acl{RBF} Kernel}
$$K(\bm{m}_i,\bm{m}_j) = \exp\left(-\frac{||\bm{m}_1-\bm{m}_2||^2}{2\sigma^2}\right)$$
\includegraphics[width=\textwidth]{kernel_trick_example.png}
\section{Soft Margin}
Falls Daten vorliegen, die nicht \say{einfach} (\ref{occam's razor}) separierbar sind ist es zwar möglich den Feature Space so zu transformieren, dass er linear separierbar wird,
allerdings ist dies wenig sinnvoll.
Hierbei ist die \acs{vc-dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist.
Hierbei ist die \acs{VC-Dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist.
Dieses Problem kann umgangen werden, indem mittels \say{soft margins} zugelassen wird, dass eine geringe Anzahl an Datenpunkten auf der falschen Seite der Diskriminanten liegt.\\
\includegraphics[width=.6\textwidth]{soft_margin.png}