unsupervised learning finished

2021-01-29 10:35:35 +01:00 · 2021-01-29 10:35:35 +01:00 · 6eb205463c
commit 6eb205463c
parent 7e21367ccd
10 changed files with 46 additions and 13 deletions
--- a/Acronyms.tex
+++ b/Acronyms.tex
@ -8,4 +8,5 @@
    \acro{KKT} {Karush-Kuhn-Tucker}
    \acro{RBF} {Radial Basis Function}
    \acro{DBSCAN} {Density-Based Spatial Clustering of Applications with Noise}
+    \acro{VSM}{Vector Space Model}
 \end{acronym}
--- a/chapters/Supervised
+++ b/chapters/Supervised
@ -63,7 +63,7 @@
        \subsection{Beispiel: symmetrischer Lernalgorithmus}
            \includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus_symmetrisch.png}

-    \section{\acs{VC-Dimension}}\label{vc-dimension}
+    \section{\ac{VC-Dimension}}\label{vc-dimension}
        Die \acl{VC-Dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung.

        \subsection{Shattering}
@ -135,7 +135,7 @@
            \begin{itemize}
                \item $N$: Anzahl der Trainingsdatenpunkte
                \item $\kappa$: das \say{confidence level}, $0\le\kappa\le1$
-                \item $h$: \acs{VC-Dimension} (\ref{vc-dimension})
+                \item $h$: \ac{VC-Dimension} (\ref{vc-dimension})
            \end{itemize}
            \includegraphics[width=.8\textwidth]{risk-bound.png}

@ -150,7 +150,7 @@
            \includegraphics[width=.6\textwidth]{structural_risk.png}

            \subsubsection{\acl{SRM}}
-                Das strukurelle Risiko kann entweder dadurch reduziert werden,
+                \ac{SRM} kann entweder dadurch erreicht werden,
                dass das empirische Risiko (\ref{empirical risk}) bei gleichbleibenden $\varepsilon$ (\ref{capacity term}) reduziert wird,
-                oder durch eine Reduzierung von $\varepsilon$ bei gleichbleibenden empirishen Risiko.
-                Letzteres ist der Ansatz den die \acs{SVM}s (\ref{svm}) verfolgen.
+                oder durch eine Reduzierung von $\varepsilon$ bei gleichbleibenden empirischen Risiko.
+                Letzteres ist der Ansatz den die \ac{SVM}s (\ref{svm}) verfolgen.
--- a/chapters/Supervised
+++ b/chapters/Supervised
@ -1,5 +1,5 @@
 \chapter{\acl{SVM}}\label{svm}
-    \acs{SVM}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\
+    \ac{SVM}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\
    \begin{tabular}{|p{.475\textwidth}|p{.475\textwidth}|}
        \hline
        \textbf{Vorteile} & \textbf{Nachteile}\\
@ -63,7 +63,7 @@
                    \frac{\delta L_\alpha}{\delta w_0} &= 0 \Rightarrow \sum^N_{i=1}\alpha_i \cdot g_i = 0\\
                    \frac{\delta L_\alpha}{\delta \bm{w}} &= 0 \Rightarrow \bm{w} - \sum^N_{i=1}\alpha_i \cdot \bm{m}_i \cdot g_i = 0 \rightarrow \bm{w} = \sum^N_{i=1}\alpha_i \cdot g_i \cdot \bm{m}_i
                \end{align*}
-                Hieraus ergeben sich die \acl{KKT} Bedingungen
+                Hieraus ergeben sich die \ac{KKT}-Bedingungen
                \begin{align*}
                    (\bm{w}^T\bm{m}_i + w_0)\cdot g_i - 1 &\ge 0 \\
                    \alpha_i &\ge 0 \\
@ -72,10 +72,10 @@
                Jeder Datenpunkt, für den $\alpha_i>0$ gilt, ist ein \say{support vector}.

            \subsubsection{Sparsity}
-                \acs{SVM}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen.
+                \ac{SVM}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen.
    
    \section{nicht-lineare \acl{SVM}}\label{non linear svm}
-        \acs{SVM}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen.
+        \ac{SVM}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen.
        Hierfür müssen einige mathematischen Tricks angewandt werden.

        \subsection{Dual Representation **}
@ -119,13 +119,14 @@
            \includegraphics[width=.8\textwidth]{kernel_trick_polynomial_kernel.png} 

            \subsubsection{Beispiel: Gausian \acl{RBF} Kernel}
+                Der \say{Gausian \ac{RBF}} Kernel ist definiert durch:
                $$K(\bm{m}_i,\bm{m}_j) = \exp\left(-\frac{||\bm{m}_1-\bm{m}_2||^2}{2\sigma^2}\right)$$
                \includegraphics[width=\textwidth]{kernel_trick_example.png}

    \section{Soft Margin}
        Falls Daten vorliegen, die nicht \say{einfach} (\ref{occam's razor}) separierbar sind ist es zwar möglich den Feature Space so zu transformieren, dass er linear separierbar wird,
        allerdings ist dies wenig sinnvoll.
-        Hierbei ist die \acs{VC-Dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist.
+        Hierbei ist die \ac{VC-Dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist.
        Dieses Problem kann umgangen werden, indem mittels \say{soft margins} zugelassen wird, dass eine geringe Anzahl an Datenpunkten auf der falschen Seite der Diskriminanten liegt.\\
        \includegraphics[width=.6\textwidth]{soft_margin.png}
        
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@ -8,6 +8,7 @@
        Um dennoch auffällige Kombinationen zu erkennen wird anhand der rohen Wahrscheinlichkeiten für den Kauf eines Produktes ein Erwartungswert für eine Kombination bestimmt.

    \section{Link Analysis}
+    \label{section:link analysis}
        \say{Link Analysis} ist der allgemeine Ausdruck für die Analyse von Daten, die als Knoten und Kanten eines Graphen dargestellt werden können.
        Interessant sind hierbei vor allem das CLIQUE-Problem.
        \begin{figure}[H]
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@ -2,6 +2,7 @@
    \includegraphics[width = .6\textwidth]{clustering_algorithms.png} 

    \section{partition based algorithms}
+    \label{partition based clustering}
        Partitionsbasierte Clustering Algorithmen starten mit einer vordefinierten Partitionierung.
        Anschließend werden die Elemente so lange zwischen den Partitionen verschoben, bis  das optimale Ziel erreicht ist.
        Die meisten dieser Algorithmen erfordern, dass die Anzahl der angestrebten Partitionen vorgegeben ist.\\
@ -38,6 +39,7 @@
                \includegraphics[width = .9\textwidth]{k-means.png}

    \section{Hierachische Verfahren}
+    \label{hierarchical clustering}
        \includegraphics[width = \textwidth]{hierachische Verfahren.png}\\
        \begin{tabular}{|p{.475\textwidth}|p{.475\textwidth}|}
            \hline
@ -104,7 +106,7 @@
            $O(n\cdot \log n)$

    \section{density based clustering}\label{density based clustering}
-        Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \acs{DBSCAN} bezeichnet.
+        Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \ac{DBSCAN} bezeichnet.
        Hierfür benötigt der \ac{DBSCAN} Algorithmus 2 Parameter:\\
        \includegraphics[width = .8\textwidth]{dbscan-parameters.png}\\
        Für eine gute Auswahl der Parameter ist Vorwissen über den Datensatz erforderlich.\\
--- a/Learning/Spatio-temporal
+++ b/Learning/Spatio-temporal
@ -25,6 +25,5 @@
            \say{
                The minimum Arctic sea ice extent occurs in September. The maximum is in February or March.
                Arctic sea ice maxima and minima have been shrinking for three decades.
-                (NASA Earth Observatory maps by Joshua Stevens, based on AMSR2-E data from NSIDC)
            }\\
            \includegraphics[width = .8\textwidth]{arctic-ice.png}
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@ -0,0 +1,28 @@
+\chapter{Web Document clustering Approaches}
+\label{chapter:web document clustering approaches}
+    Im Kern ist das Internet eine Sammlung von Dokumenten.
+    Daher besteht die Aufgabe eines Browsers darin diese Dokumente effektiv zu strukturieren, um sie in kurzer Zeit durchsuchen zu können.
+    Auch hierfür werden Clustering Algorithmen verwendet.
+    Meist werden hierbei Hybrid Methoden aus dem Bereich des Text-based Clustering (\ref{text-based clustering}) und der Link Analysis (\ref{section:link analysis}).
+    Dieser Ansatz wird allgemein als \say{Web-Mining} bezeichnet.
+
+    \section{\acl{VSM}}
+    \label{vsm}
+        Bei der Modellierung mithilfe eines \ac{VSM} werden die Charakteristika und Attribute eines Dokumentes ausgewählt und nach ihrer Relevanz gewichtet.
+
+        \subsection{Beispiel: The Boxer Rebellion}
+        \label{vsm example - the boxer rebellion}
+            \includegraphics[width = \textwidth]{the-boxer-rebellion.png}
+
+    \section{Text-based Clustering}
+    \label{text-based clustering}
+        Der Grundgedanke des \say{text-based Clustering} ist, dass zwei Dokumente, die ähnliche Attribute enthalten mit hoher Wahrscheinlichkeit ähnlich sind.
+        Um dies zu untersuchen werden zumeist partionierende (\ref{partition based clustering}) oder hierarchische (\ref{hierarchical clustering}) Clustering Algorithmen verwendet.
+        Diese Algorithmen nutzen allerdings meist nur den genauen Wortlaut ohne die \textbf{semantische Ähnlichkeit} der Wörter zu beachten.
+        Das Stichwort für die innere Ähnlichkeit in der Semantik von Wörtern wird als Ontologie bezeichnet.\\
+        \includegraphics[width=.8\textwidth]{ontology.png}\\
+
+        \subsection{THESUS}
+        \label{thesus}
+            \say{THESUS} ist eine modifizierte Version des \ac{DBSCAN} Algorithmus' (\ref{density based clustering}), welcher Rücksicht auf die Ontologie verschiedener Wörter nimmt.
+        
--- a/images/ontology.png
+++ b/images/ontology.png
--- a/images/the-boxer-rebellion.png
+++ b/images/the-boxer-rebellion.png
--- a/parts/Unsupervised
+++ b/parts/Unsupervised
@ -4,4 +4,5 @@
 \input{chapters/Unsupervised Learning/Clustering Algorithms.tex}
 \input{chapters/Unsupervised Learning/Number of Clusters.tex}
 \input{chapters/Unsupervised Learning/Association Rules und Link Analysis.tex}
-\input{chapters/Unsupervised Learning/Spatio-temporal clustering.tex}
+\input{chapters/Unsupervised Learning/Spatio-temporal clustering.tex}
+\input{chapters/Unsupervised Learning/Web Document Clustering Approaches.tex}