added clustering algorithms and changed acronyms

2021-01-28 16:22:16 +01:00
parent e5cb5ef2f4
commit 93b3f58029
17 changed files with 142 additions and 57 deletions
--- a/Learning/Hierachische
+++ b/Learning/Hierachische
@@ -1,30 +0,0 @@
-\chapter{Hierachische Verfahren}
-    \includegraphics[width = \textwidth]{hierachische Verfahren.png}
-    Eine hierarchische Clusterung lässt sich mithilfe eines Dendogramms darstellen:\\
-    \includegraphics[width=.6\textwidth]{dendogramm.png}
-    
-    \section{Algorithmus}
-        \begin{enumerate}
-            \item erzeuge für jeden Punkt aus dem Datensatz ein separates Cluster
-            \item Berechne den Abstand zwischen allen Clustern
-            \item Verschmelze die beiden Cluster, die den geringsten Abstand zueinander haben
-            \item Aktualisiere die Distanzen zwischen den Clustern bis alle Punkte in dem gleichen Cluster liegen
-            \item goto 3.
-        \end{enumerate}
-        Meistens wird in den Algorithmus eine Abbruchbedingung eingebaut, damit nicht alle Elemente in dem gleichen Cluster zusammengefasst werden.
-        Diese Abbruchbedingung definiert sich über den maximalen Abstand der Elemente in einem Cluster.
-
-    \section{Abstand zwischen Clustern}
-        Es gibt mehrer Möglichkeiten um den Abstand zwischen zwei Clustern festzustellen
-
-        \paragraph{Single Link}\mbox{}\\
-            \includegraphics[width=.8\textwidth]{single-link.png}
-
-        \paragraph{Complete Link}\mbox{}\\
-            \includegraphics[width=.8\textwidth]{complete-link.png}
-
-        \paragraph{Average Link}\mbox{}\\
-            \includegraphics[width=.8\textwidth]{average-link.png}
-
-        \paragraph{Abstand der Zentroide der beiden Cluster}\mbox{}\\
-            \includegraphics[width=.8\textwidth]{centroid-distance.png}
--- a/chapters/Supervised
+++ b/chapters/Supervised
@@ -63,8 +63,8 @@
        \subsection{Beispiel: symmetrischer Lernalgorithmus}
            \includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus_symmetrisch.png}

-    \section{\acs{vc-dimension}}\label{vc-dimension}
-        Die \acl{vc-dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung.
+    \section{\acs{VC-Dimension}}\label{vc-dimension}
+        Die \acl{VC-Dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung.

        \subsection{Shattering}
            \say{Here we will only consider functions that correspond to the two-class pattern recognition case, so that $g(\bm{m}, y) \in \{-1, 1\}\forall x, y$.
@@ -135,7 +135,7 @@
            \begin{itemize}
                \item $N$: Anzahl der Trainingsdatenpunkte
                \item $\kappa$: das \say{confidence level}, $0\le\kappa\le1$
-                \item $h$: \acs{vc-dimension} (\ref{vc-dimension})
+                \item $h$: \acs{VC-Dimension} (\ref{vc-dimension})
            \end{itemize}
            \includegraphics[width=.8\textwidth]{risk-bound.png}

@@ -149,8 +149,8 @@
            Das Strukturelle Risiko wird durch das empirische Risiko $R_{emp}(\bm{w})$ (\ref{empirical risk}) und den Kapazitätsterm $\varepsilon(N,\kappa,h)$ (\ref{capacity term}) definiert.\\
            \includegraphics[width=.6\textwidth]{structural_risk.png}

-            \subsubsection{\acl{srm}}
+            \subsubsection{\acl{SRM}}
                Das strukurelle Risiko kann entweder dadurch reduziert werden,
                dass das empirische Risiko (\ref{empirical risk}) bei gleichbleibenden $\varepsilon$ (\ref{capacity term}) reduziert wird,
                oder durch eine Reduzierung von $\varepsilon$ bei gleichbleibenden empirishen Risiko.
-                Letzteres ist der Ansatz den die \acs{svm}s (\ref{svm}) verfolgen.
+                Letzteres ist der Ansatz den die \acs{SVM}s (\ref{svm}) verfolgen.
--- a/chapters/Supervised
+++ b/chapters/Supervised
@@ -1,5 +1,5 @@
-\chapter{\acl{svm}}\label{svm}
-    \acs{svm}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\
+\chapter{\acl{SVM}}\label{svm}
+    \acs{SVM}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\
    \begin{tabular}{|p{.475\textwidth}|p{.475\textwidth}|}
        \hline
        \textbf{Vorteile} & \textbf{Nachteile}\\
@@ -16,7 +16,7 @@
        \hline
    \end{tabular}

-    \section{lineare \acl{svm}}
+    \section{lineare \acl{SVM}}
        \begin{wrapfigure}{h}{.6\textwidth}
            \vspace{-10mm}
            \includegraphics[width=.6\textwidth]{svm_base.png}
@@ -63,7 +63,7 @@
                    \frac{\delta L_\alpha}{\delta w_0} &= 0 \Rightarrow \sum^N_{i=1}\alpha_i \cdot g_i = 0\\
                    \frac{\delta L_\alpha}{\delta \bm{w}} &= 0 \Rightarrow \bm{w} - \sum^N_{i=1}\alpha_i \cdot \bm{m}_i \cdot g_i = 0 \rightarrow \bm{w} = \sum^N_{i=1}\alpha_i \cdot g_i \cdot \bm{m}_i
                \end{align*}
-                Hieraus ergeben sich die \acl{kkt} Bedingungen
+                Hieraus ergeben sich die \acl{KKT} Bedingungen
                \begin{align*}
                    (\bm{w}^T\bm{m}_i + w_0)\cdot g_i - 1 &\ge 0 \\
                    \alpha_i &\ge 0 \\
@@ -72,10 +72,10 @@
                Jeder Datenpunkt, für den $\alpha_i>0$ gilt, ist ein \say{support vector}.

            \subsubsection{Sparsity}
-                \acs{svm}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen.
+                \acs{SVM}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen.
    
-    \section{nicht-lineare \acl{svm}}\label{non linear svm}
-        \acs{svm}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen.
+    \section{nicht-lineare \acl{SVM}}\label{non linear svm}
+        \acs{SVM}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen.
        Hierfür müssen einige mathematischen Tricks angewandt werden.

        \subsection{Dual Representation **}
@@ -118,14 +118,14 @@
        \subsection{Polynomialer Kernel}
            \includegraphics[width=.8\textwidth]{kernel_trick_polynomial_kernel.png} 

-            \subsubsection{Beispiel: Gausian \acl{rbf} Kernel}
+            \subsubsection{Beispiel: Gausian \acl{RBF} Kernel}
                $$K(\bm{m}_i,\bm{m}_j) = \exp\left(-\frac{||\bm{m}_1-\bm{m}_2||^2}{2\sigma^2}\right)$$
                \includegraphics[width=\textwidth]{kernel_trick_example.png}

    \section{Soft Margin}
        Falls Daten vorliegen, die nicht \say{einfach} (\ref{occam's razor}) separierbar sind ist es zwar möglich den Feature Space so zu transformieren, dass er linear separierbar wird,
        allerdings ist dies wenig sinnvoll.
-        Hierbei ist die \acs{vc-dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist.
+        Hierbei ist die \acs{VC-Dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist.
        Dieses Problem kann umgangen werden, indem mittels \say{soft margins} zugelassen wird, dass eine geringe Anzahl an Datenpunkten auf der falschen Seite der Diskriminanten liegt.\\
        \includegraphics[width=.6\textwidth]{soft_margin.png}