added association rules, link analysis, number of clusters and spatio-temporal clustering

2021-01-28 22:03:00 +01:00
parent 93b3f58029
commit 7e21367ccd
11 changed files with 87 additions and 2 deletions
--- a/Packages.tex
+++ b/Packages.tex
@@ -7,6 +7,7 @@
 \usepackage{graphicx}
 \graphicspath{ {./images/} }
 \usepackage{wrapfig}
 \usepackage{float}
 %svg images
 \usepackage{svg}
 %quotation
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@@ -0,0 +1,24 @@
 \chapter{Association Rules und Link Analysis}
    \section{Association Rules}
        \say{Association Rules} treffen Aussagen über den probabilistischen Zusammenhang verschiedener Features.
        Erkenntnisse, die aus diesen Regeln getroffen werden können werden vor allen Dingen dazu verwendet Verkaufszahlen zu steigern,
        indem Kunden Produkte angeboten werden, die sie interessieren könnten.
        Die Auswahl der angebotenen Daten erfolgt hierbei auf Basis der Association Rules, die besagen, welche Produkte häufig zusammen gekauft werden.\\
        Da die Anzahl der möglichen Kombinationen exponentiell abhängig von der Anzahl der erhältlichen Produkte ist, ist eine Analyse aller Kombinationen \textbf{unmöglich}.
        Um dennoch auffällige Kombinationen zu erkennen wird anhand der rohen Wahrscheinlichkeiten für den Kauf eines Produktes ein Erwartungswert für eine Kombination bestimmt.
    \section{Link Analysis}
        \say{Link Analysis} ist der allgemeine Ausdruck für die Analyse von Daten, die als Knoten und Kanten eines Graphen dargestellt werden können.
        Interessant sind hierbei vor allem das CLIQUE-Problem.
        \begin{figure}[H]
            \centering
            \includegraphics[width = .6\textwidth]{KB_CLIQUE_excerpt.png}
            \caption{Auszug aus der KB (Komplexität und Berechbarkeit) Zusammfassung}
        \end{figure}
        \subsection{Historische Entwicklung}
            Der Einsatz von Computern im Bereich der Link Analysis hat zu folgenden Entwicklungen geführt:
            \begin{itemize}
                \item Die Darstellung von kriminellen und/oder Betrügungsnetzwerken, die früher statisch per Hand aufgezeichnet wurde kann nun automatisiert und dynamisch von einem Rechner erstellt werden.
                \item Viele Menschen sind über verschiedenste Datenbanken miteinander verknüpft (z.B. gleiche Telefonnummer, gleiche Adresse, ...)
            \end{itemize}
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@@ -103,7 +103,7 @@
        \paragraph{Zeitliche Komplexität}\mbox{}\\
            $O(n\cdot \log n)$
-    \section{density based clustering}
+    \section{density based clustering}\label{density based clustering}
        Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \acs{DBSCAN} bezeichnet.
        Hierfür benötigt der \ac{DBSCAN} Algorithmus 2 Parameter:\\
        \includegraphics[width = .8\textwidth]{dbscan-parameters.png}\\
--- a/chapters/Unsupervised
+++ b/chapters/Unsupervised
@@ -0,0 +1,27 @@
 \chapter{Auswahl der Clusteranzahl}
    Viele Clusterin Algorithmen (\ref{clustering algorithms}) erfordern es, dass die Anzahl der angestrebten Cluster als Parameter vorgegeben wird.
    Dies kann einen großen Einfluss auf die Leistung der jeweiligen Verfahren haben.
    Es gibt mehrere Methoden um die benötigte Anzahl an Clustern ($k$) zu bestimmen.
     \section{Intra-Cluster Scatter Determination}
        Mithilfe des \say{depression-decay}-Verfahrens kann ein Fehlerwert $W_k$ errechnet werden:
        $$W_k = \sum^k_{i=1}\frac{1}{2n_i}D_i$$
        Hierbei ist $D_i$ die Summe der paarweisen Abstände aller Elemente im Cluster $i$:
        $$D_i = \sum_{x_l,x_m\in C_i}||x_l-x_m||$$
        Anfänglich nimmt der \say{within-cluster decay} mit steigendem $k$ schnell ab.
        Ab einem  bestimmten $k$ flacht die Kurve ab.
        Dieses $k$  wird als optimale Anzahl angenommen.
    \section{Intra- and Inter-Cluster Scatter Determination}
        Bei der \say{Intra- and Inter-Cluster Scatter Determination} wird versucht den \say{intra-cluster scatter} zu maximieren und den \say{inter-cluster scatter} zu maximieren.
        \paragraph{$MICD_i$}
            durchschnittlicher intra-cluster Abstand des $i$-ten Cluster:
            $$ MICD_i =  \sum_{x_l\in C_i} \frac{||x_l-\mu_i||}{n_i} $$
        \paragraph{$ICMD_i$} 
            minimaler inter-cluster Abstand:
            $$ ICMD_i = \min_{l\ne m}||\mu_l-\mu_m|| $$
    \section{Probability Based Determination}
        Mithilfe eines density-based Clustering Algorithmus (\ref{density based clustering}) wird eine Vermutung dazu aufgestellt, welches $k$ optimal ist.
--- a/Learning/Spatio-temporal
+++ b/Learning/Spatio-temporal
@@ -0,0 +1,30 @@
 \chapter{Spatio-temporal clustering}
    Beim \say{spatio-temporal clustering} werden die Elemente nach ihrer räumlichen und zeitlichen Ähnlichkeit gruppiert.
    Hierbei handelt es sich um ein relativ neues Verfahren, welches vor allem für geographische Anwendungen verwendet wird.\\
    \includegraphics[width = \textwidth]{GIS-models.png}\\
    Bei diesen Verfahren stellt meist nicht die 2- bzw. 3-dimensionale Darstellung der Daten, sondern die Kombination mit dem Faktor Zeit die Schwierigkeit dar.
    Es ist schwierig diesen Faktor in die Berechnung der Abstände einzubeziehen.
    Hierbei ist eine Klassifizierung dadurch möglich, dass die Daten in zwei Dimensionen separat klassifiziert werden.
    \begin{itemize}
        \item \textbf{zeitliche Dimension:}\\
            Hierbei gibt es unterschiedlich komplexe Ansätze
            \begin{itemize}
                \item \textbf{basic case:} enthält nur Elemente, die sich nicht verändern
                \item \textbf{more complex:} jedes Element kann den eigenen Status ändern
                \item \textbf{extreme complex:} jedes Element kann den eigenen Status ändern.
                    Zudem werden die vergangenen Stati gemerkt
            \end{itemize}
        \item \textbf{räumliche Dimension:}\\
            beschreibt die räumliche Verortung der Elemente
    \end{itemize}
   \includegraphics[width = \textwidth]{spatio-temporal_complexity.png} 
    \section{Anwendungsbeispiele}
        \includegraphics[width=.9\textwidth]{spatio-temporal_applications.png}
        \subsection{Arctic Ice Movement}
            \say{
                The minimum Arctic sea ice extent occurs in September. The maximum is in February or March.
                Arctic sea ice maxima and minima have been shrinking for three decades.
                (NASA Earth Observatory maps by Joshua Stevens, based on AMSR2-E data from NSIDC)
            }\\
            \includegraphics[width = .8\textwidth]{arctic-ice.png}
--- a/images/GIS-models.png
+++ b/images/GIS-models.png
--- a/images/KB_CLIQUE_excerpt.png
+++ b/images/KB_CLIQUE_excerpt.png
--- a/images/arctic-ice.png
+++ b/images/arctic-ice.png
--- a/images/spatio-temporal_applications.png
+++ b/images/spatio-temporal_applications.png
--- a/images/spatio-temporal_complexity.png
+++ b/images/spatio-temporal_complexity.png
--- a/parts/Unsupervised
+++ b/parts/Unsupervised
@@ -1,4 +1,7 @@
 \part{Unsupervised Learning}\label{unsupervised learning}
 \input{chapters/Unsupervised Learning/Clustering.tex}
-\input{chapters/Unsupervised Learning/Clustering Algorithms.tex}
+\input{chapters/Unsupervised Learning/Clustering Algorithms.tex}
 \input{chapters/Unsupervised Learning/Number of Clusters.tex}
 \input{chapters/Unsupervised Learning/Association Rules und Link Analysis.tex}
 \input{chapters/Unsupervised Learning/Spatio-temporal clustering.tex}