unsupervised learning finished

2021-01-29 10:35:35 +01:00
parent 7e21367ccd
commit 6eb205463c
10 changed files with 46 additions and 13 deletions
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@@ -8,6 +8,7 @@
        Um dennoch auffällige Kombinationen zu erkennen wird anhand der rohen Wahrscheinlichkeiten für den Kauf eines Produktes ein Erwartungswert für eine Kombination bestimmt.

    \section{Link Analysis}
+    \label{section:link analysis}
        \say{Link Analysis} ist der allgemeine Ausdruck für die Analyse von Daten, die als Knoten und Kanten eines Graphen dargestellt werden können.
        Interessant sind hierbei vor allem das CLIQUE-Problem.
        \begin{figure}[H]
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@@ -2,6 +2,7 @@
    \includegraphics[width = .6\textwidth]{clustering_algorithms.png} 

    \section{partition based algorithms}
+    \label{partition based clustering}
        Partitionsbasierte Clustering Algorithmen starten mit einer vordefinierten Partitionierung.
        Anschließend werden die Elemente so lange zwischen den Partitionen verschoben, bis  das optimale Ziel erreicht ist.
        Die meisten dieser Algorithmen erfordern, dass die Anzahl der angestrebten Partitionen vorgegeben ist.\\
@@ -38,6 +39,7 @@
                \includegraphics[width = .9\textwidth]{k-means.png}

    \section{Hierachische Verfahren}
+    \label{hierarchical clustering}
        \includegraphics[width = \textwidth]{hierachische Verfahren.png}\\
        \begin{tabular}{|p{.475\textwidth}|p{.475\textwidth}|}
            \hline
@@ -104,7 +106,7 @@
            $O(n\cdot \log n)$

    \section{density based clustering}\label{density based clustering}
-        Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \acs{DBSCAN} bezeichnet.
+        Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \ac{DBSCAN} bezeichnet.
        Hierfür benötigt der \ac{DBSCAN} Algorithmus 2 Parameter:\\
        \includegraphics[width = .8\textwidth]{dbscan-parameters.png}\\
        Für eine gute Auswahl der Parameter ist Vorwissen über den Datensatz erforderlich.\\
--- a/Learning/Spatio-temporal
+++ b/Learning/Spatio-temporal
@@ -25,6 +25,5 @@
            \say{
                The minimum Arctic sea ice extent occurs in September. The maximum is in February or March.
                Arctic sea ice maxima and minima have been shrinking for three decades.
-                (NASA Earth Observatory maps by Joshua Stevens, based on AMSR2-E data from NSIDC)
            }\\
            \includegraphics[width = .8\textwidth]{arctic-ice.png}
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@@ -0,0 +1,28 @@
+\chapter{Web Document clustering Approaches}
+\label{chapter:web document clustering approaches}
+    Im Kern ist das Internet eine Sammlung von Dokumenten.
+    Daher besteht die Aufgabe eines Browsers darin diese Dokumente effektiv zu strukturieren, um sie in kurzer Zeit durchsuchen zu können.
+    Auch hierfür werden Clustering Algorithmen verwendet.
+    Meist werden hierbei Hybrid Methoden aus dem Bereich des Text-based Clustering (\ref{text-based clustering}) und der Link Analysis (\ref{section:link analysis}).
+    Dieser Ansatz wird allgemein als \say{Web-Mining} bezeichnet.
+
+    \section{\acl{VSM}}
+    \label{vsm}
+        Bei der Modellierung mithilfe eines \ac{VSM} werden die Charakteristika und Attribute eines Dokumentes ausgewählt und nach ihrer Relevanz gewichtet.
+
+        \subsection{Beispiel: The Boxer Rebellion}
+        \label{vsm example - the boxer rebellion}
+            \includegraphics[width = \textwidth]{the-boxer-rebellion.png}
+
+    \section{Text-based Clustering}
+    \label{text-based clustering}
+        Der Grundgedanke des \say{text-based Clustering} ist, dass zwei Dokumente, die ähnliche Attribute enthalten mit hoher Wahrscheinlichkeit ähnlich sind.
+        Um dies zu untersuchen werden zumeist partionierende (\ref{partition based clustering}) oder hierarchische (\ref{hierarchical clustering}) Clustering Algorithmen verwendet.
+        Diese Algorithmen nutzen allerdings meist nur den genauen Wortlaut ohne die \textbf{semantische Ähnlichkeit} der Wörter zu beachten.
+        Das Stichwort für die innere Ähnlichkeit in der Semantik von Wörtern wird als Ontologie bezeichnet.\\
+        \includegraphics[width=.8\textwidth]{ontology.png}\\
+
+        \subsection{THESUS}
+        \label{thesus}
+            \say{THESUS} ist eine modifizierte Version des \ac{DBSCAN} Algorithmus' (\ref{density based clustering}), welcher Rücksicht auf die Ontologie verschiedener Wörter nimmt.
+