diff --git a/Packages.tex b/Packages.tex index f5719bf..678cf9e 100644 --- a/Packages.tex +++ b/Packages.tex @@ -7,6 +7,7 @@ \usepackage{graphicx} \graphicspath{ {./images/} } \usepackage{wrapfig} +\usepackage{float} %svg images \usepackage{svg} %quotation diff --git a/chapters/Unsupervised Learning/Association Rules und Link Analysis.tex b/chapters/Unsupervised Learning/Association Rules und Link Analysis.tex new file mode 100644 index 0000000..cb4dadf --- /dev/null +++ b/chapters/Unsupervised Learning/Association Rules und Link Analysis.tex @@ -0,0 +1,24 @@ +\chapter{Association Rules und Link Analysis} + \section{Association Rules} + \say{Association Rules} treffen Aussagen über den probabilistischen Zusammenhang verschiedener Features. + Erkenntnisse, die aus diesen Regeln getroffen werden können werden vor allen Dingen dazu verwendet Verkaufszahlen zu steigern, + indem Kunden Produkte angeboten werden, die sie interessieren könnten. + Die Auswahl der angebotenen Daten erfolgt hierbei auf Basis der Association Rules, die besagen, welche Produkte häufig zusammen gekauft werden.\\ + Da die Anzahl der möglichen Kombinationen exponentiell abhängig von der Anzahl der erhältlichen Produkte ist, ist eine Analyse aller Kombinationen \textbf{unmöglich}. + Um dennoch auffällige Kombinationen zu erkennen wird anhand der rohen Wahrscheinlichkeiten für den Kauf eines Produktes ein Erwartungswert für eine Kombination bestimmt. + + \section{Link Analysis} + \say{Link Analysis} ist der allgemeine Ausdruck für die Analyse von Daten, die als Knoten und Kanten eines Graphen dargestellt werden können. + Interessant sind hierbei vor allem das CLIQUE-Problem. + \begin{figure}[H] + \centering + \includegraphics[width = .6\textwidth]{KB_CLIQUE_excerpt.png} + \caption{Auszug aus der KB (Komplexität und Berechbarkeit) Zusammfassung} + \end{figure} + + \subsection{Historische Entwicklung} + Der Einsatz von Computern im Bereich der Link Analysis hat zu folgenden Entwicklungen geführt: + \begin{itemize} + \item Die Darstellung von kriminellen und/oder Betrügungsnetzwerken, die früher statisch per Hand aufgezeichnet wurde kann nun automatisiert und dynamisch von einem Rechner erstellt werden. + \item Viele Menschen sind über verschiedenste Datenbanken miteinander verknüpft (z.B. gleiche Telefonnummer, gleiche Adresse, ...) + \end{itemize} \ No newline at end of file diff --git a/chapters/Unsupervised Learning/Clustering Algorithms.tex b/chapters/Unsupervised Learning/Clustering Algorithms.tex index e334e21..a8c7b07 100644 --- a/chapters/Unsupervised Learning/Clustering Algorithms.tex +++ b/chapters/Unsupervised Learning/Clustering Algorithms.tex @@ -103,7 +103,7 @@ \paragraph{Zeitliche Komplexität}\mbox{}\\ $O(n\cdot \log n)$ - \section{density based clustering} + \section{density based clustering}\label{density based clustering} Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \acs{DBSCAN} bezeichnet. Hierfür benötigt der \ac{DBSCAN} Algorithmus 2 Parameter:\\ \includegraphics[width = .8\textwidth]{dbscan-parameters.png}\\ diff --git a/chapters/Unsupervised Learning/Number of Clusters.tex b/chapters/Unsupervised Learning/Number of Clusters.tex new file mode 100644 index 0000000..86b75c3 --- /dev/null +++ b/chapters/Unsupervised Learning/Number of Clusters.tex @@ -0,0 +1,27 @@ +\chapter{Auswahl der Clusteranzahl} + Viele Clusterin Algorithmen (\ref{clustering algorithms}) erfordern es, dass die Anzahl der angestrebten Cluster als Parameter vorgegeben wird. + Dies kann einen großen Einfluss auf die Leistung der jeweiligen Verfahren haben. + Es gibt mehrere Methoden um die benötigte Anzahl an Clustern ($k$) zu bestimmen. + + \section{Intra-Cluster Scatter Determination} + Mithilfe des \say{depression-decay}-Verfahrens kann ein Fehlerwert $W_k$ errechnet werden: + $$W_k = \sum^k_{i=1}\frac{1}{2n_i}D_i$$ + Hierbei ist $D_i$ die Summe der paarweisen Abstände aller Elemente im Cluster $i$: + $$D_i = \sum_{x_l,x_m\in C_i}||x_l-x_m||$$ + Anfänglich nimmt der \say{within-cluster decay} mit steigendem $k$ schnell ab. + Ab einem bestimmten $k$ flacht die Kurve ab. + Dieses $k$ wird als optimale Anzahl angenommen. + + \section{Intra- and Inter-Cluster Scatter Determination} + Bei der \say{Intra- and Inter-Cluster Scatter Determination} wird versucht den \say{intra-cluster scatter} zu maximieren und den \say{inter-cluster scatter} zu maximieren. + + \paragraph{$MICD_i$} + durchschnittlicher intra-cluster Abstand des $i$-ten Cluster: + $$ MICD_i = \sum_{x_l\in C_i} \frac{||x_l-\mu_i||}{n_i} $$ + + \paragraph{$ICMD_i$} + minimaler inter-cluster Abstand: + $$ ICMD_i = \min_{l\ne m}||\mu_l-\mu_m|| $$ + + \section{Probability Based Determination} + Mithilfe eines density-based Clustering Algorithmus (\ref{density based clustering}) wird eine Vermutung dazu aufgestellt, welches $k$ optimal ist. \ No newline at end of file diff --git a/chapters/Unsupervised Learning/Spatio-temporal clustering.tex b/chapters/Unsupervised Learning/Spatio-temporal clustering.tex new file mode 100644 index 0000000..ca3b634 --- /dev/null +++ b/chapters/Unsupervised Learning/Spatio-temporal clustering.tex @@ -0,0 +1,30 @@ +\chapter{Spatio-temporal clustering} + Beim \say{spatio-temporal clustering} werden die Elemente nach ihrer räumlichen und zeitlichen Ähnlichkeit gruppiert. + Hierbei handelt es sich um ein relativ neues Verfahren, welches vor allem für geographische Anwendungen verwendet wird.\\ + \includegraphics[width = \textwidth]{GIS-models.png}\\ + Bei diesen Verfahren stellt meist nicht die 2- bzw. 3-dimensionale Darstellung der Daten, sondern die Kombination mit dem Faktor Zeit die Schwierigkeit dar. + Es ist schwierig diesen Faktor in die Berechnung der Abstände einzubeziehen. + Hierbei ist eine Klassifizierung dadurch möglich, dass die Daten in zwei Dimensionen separat klassifiziert werden. + \begin{itemize} + \item \textbf{zeitliche Dimension:}\\ + Hierbei gibt es unterschiedlich komplexe Ansätze + \begin{itemize} + \item \textbf{basic case:} enthält nur Elemente, die sich nicht verändern + \item \textbf{more complex:} jedes Element kann den eigenen Status ändern + \item \textbf{extreme complex:} jedes Element kann den eigenen Status ändern. + Zudem werden die vergangenen Stati gemerkt + \end{itemize} + \item \textbf{räumliche Dimension:}\\ + beschreibt die räumliche Verortung der Elemente + \end{itemize} + \includegraphics[width = \textwidth]{spatio-temporal_complexity.png} + + \section{Anwendungsbeispiele} + \includegraphics[width=.9\textwidth]{spatio-temporal_applications.png} + \subsection{Arctic Ice Movement} + \say{ + The minimum Arctic sea ice extent occurs in September. The maximum is in February or March. + Arctic sea ice maxima and minima have been shrinking for three decades. + (NASA Earth Observatory maps by Joshua Stevens, based on AMSR2-E data from NSIDC) + }\\ + \includegraphics[width = .8\textwidth]{arctic-ice.png} diff --git a/images/GIS-models.png b/images/GIS-models.png new file mode 100644 index 0000000..384b8ff Binary files /dev/null and b/images/GIS-models.png differ diff --git a/images/KB_CLIQUE_excerpt.png b/images/KB_CLIQUE_excerpt.png new file mode 100644 index 0000000..340b3ad Binary files /dev/null and b/images/KB_CLIQUE_excerpt.png differ diff --git a/images/arctic-ice.png b/images/arctic-ice.png new file mode 100644 index 0000000..4962787 Binary files /dev/null and b/images/arctic-ice.png differ diff --git a/images/spatio-temporal_applications.png b/images/spatio-temporal_applications.png new file mode 100644 index 0000000..8e7fb54 Binary files /dev/null and b/images/spatio-temporal_applications.png differ diff --git a/images/spatio-temporal_complexity.png b/images/spatio-temporal_complexity.png new file mode 100644 index 0000000..712e69c Binary files /dev/null and b/images/spatio-temporal_complexity.png differ diff --git a/parts/Unsupervised Learning.tex b/parts/Unsupervised Learning.tex index 477501f..2e21be8 100644 --- a/parts/Unsupervised Learning.tex +++ b/parts/Unsupervised Learning.tex @@ -1,4 +1,7 @@ \part{Unsupervised Learning}\label{unsupervised learning} \input{chapters/Unsupervised Learning/Clustering.tex} -\input{chapters/Unsupervised Learning/Clustering Algorithms.tex} \ No newline at end of file +\input{chapters/Unsupervised Learning/Clustering Algorithms.tex} +\input{chapters/Unsupervised Learning/Number of Clusters.tex} +\input{chapters/Unsupervised Learning/Association Rules und Link Analysis.tex} +\input{chapters/Unsupervised Learning/Spatio-temporal clustering.tex} \ No newline at end of file