generated from TH_General/Template_Summary
added association rules, link analysis, number of clusters and spatio-temporal clustering
This commit is contained in:
parent
93b3f58029
commit
7e21367ccd
@ -7,6 +7,7 @@
|
||||
\usepackage{graphicx}
|
||||
\graphicspath{ {./images/} }
|
||||
\usepackage{wrapfig}
|
||||
\usepackage{float}
|
||||
%svg images
|
||||
\usepackage{svg}
|
||||
%quotation
|
||||
|
@ -0,0 +1,24 @@
|
||||
\chapter{Association Rules und Link Analysis}
|
||||
\section{Association Rules}
|
||||
\say{Association Rules} treffen Aussagen über den probabilistischen Zusammenhang verschiedener Features.
|
||||
Erkenntnisse, die aus diesen Regeln getroffen werden können werden vor allen Dingen dazu verwendet Verkaufszahlen zu steigern,
|
||||
indem Kunden Produkte angeboten werden, die sie interessieren könnten.
|
||||
Die Auswahl der angebotenen Daten erfolgt hierbei auf Basis der Association Rules, die besagen, welche Produkte häufig zusammen gekauft werden.\\
|
||||
Da die Anzahl der möglichen Kombinationen exponentiell abhängig von der Anzahl der erhältlichen Produkte ist, ist eine Analyse aller Kombinationen \textbf{unmöglich}.
|
||||
Um dennoch auffällige Kombinationen zu erkennen wird anhand der rohen Wahrscheinlichkeiten für den Kauf eines Produktes ein Erwartungswert für eine Kombination bestimmt.
|
||||
|
||||
\section{Link Analysis}
|
||||
\say{Link Analysis} ist der allgemeine Ausdruck für die Analyse von Daten, die als Knoten und Kanten eines Graphen dargestellt werden können.
|
||||
Interessant sind hierbei vor allem das CLIQUE-Problem.
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width = .6\textwidth]{KB_CLIQUE_excerpt.png}
|
||||
\caption{Auszug aus der KB (Komplexität und Berechbarkeit) Zusammfassung}
|
||||
\end{figure}
|
||||
|
||||
\subsection{Historische Entwicklung}
|
||||
Der Einsatz von Computern im Bereich der Link Analysis hat zu folgenden Entwicklungen geführt:
|
||||
\begin{itemize}
|
||||
\item Die Darstellung von kriminellen und/oder Betrügungsnetzwerken, die früher statisch per Hand aufgezeichnet wurde kann nun automatisiert und dynamisch von einem Rechner erstellt werden.
|
||||
\item Viele Menschen sind über verschiedenste Datenbanken miteinander verknüpft (z.B. gleiche Telefonnummer, gleiche Adresse, ...)
|
||||
\end{itemize}
|
@ -103,7 +103,7 @@
|
||||
\paragraph{Zeitliche Komplexität}\mbox{}\\
|
||||
$O(n\cdot \log n)$
|
||||
|
||||
\section{density based clustering}
|
||||
\section{density based clustering}\label{density based clustering}
|
||||
Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \acs{DBSCAN} bezeichnet.
|
||||
Hierfür benötigt der \ac{DBSCAN} Algorithmus 2 Parameter:\\
|
||||
\includegraphics[width = .8\textwidth]{dbscan-parameters.png}\\
|
||||
|
27
chapters/Unsupervised Learning/Number of Clusters.tex
Normal file
27
chapters/Unsupervised Learning/Number of Clusters.tex
Normal file
@ -0,0 +1,27 @@
|
||||
\chapter{Auswahl der Clusteranzahl}
|
||||
Viele Clusterin Algorithmen (\ref{clustering algorithms}) erfordern es, dass die Anzahl der angestrebten Cluster als Parameter vorgegeben wird.
|
||||
Dies kann einen großen Einfluss auf die Leistung der jeweiligen Verfahren haben.
|
||||
Es gibt mehrere Methoden um die benötigte Anzahl an Clustern ($k$) zu bestimmen.
|
||||
|
||||
\section{Intra-Cluster Scatter Determination}
|
||||
Mithilfe des \say{depression-decay}-Verfahrens kann ein Fehlerwert $W_k$ errechnet werden:
|
||||
$$W_k = \sum^k_{i=1}\frac{1}{2n_i}D_i$$
|
||||
Hierbei ist $D_i$ die Summe der paarweisen Abstände aller Elemente im Cluster $i$:
|
||||
$$D_i = \sum_{x_l,x_m\in C_i}||x_l-x_m||$$
|
||||
Anfänglich nimmt der \say{within-cluster decay} mit steigendem $k$ schnell ab.
|
||||
Ab einem bestimmten $k$ flacht die Kurve ab.
|
||||
Dieses $k$ wird als optimale Anzahl angenommen.
|
||||
|
||||
\section{Intra- and Inter-Cluster Scatter Determination}
|
||||
Bei der \say{Intra- and Inter-Cluster Scatter Determination} wird versucht den \say{intra-cluster scatter} zu maximieren und den \say{inter-cluster scatter} zu maximieren.
|
||||
|
||||
\paragraph{$MICD_i$}
|
||||
durchschnittlicher intra-cluster Abstand des $i$-ten Cluster:
|
||||
$$ MICD_i = \sum_{x_l\in C_i} \frac{||x_l-\mu_i||}{n_i} $$
|
||||
|
||||
\paragraph{$ICMD_i$}
|
||||
minimaler inter-cluster Abstand:
|
||||
$$ ICMD_i = \min_{l\ne m}||\mu_l-\mu_m|| $$
|
||||
|
||||
\section{Probability Based Determination}
|
||||
Mithilfe eines density-based Clustering Algorithmus (\ref{density based clustering}) wird eine Vermutung dazu aufgestellt, welches $k$ optimal ist.
|
@ -0,0 +1,30 @@
|
||||
\chapter{Spatio-temporal clustering}
|
||||
Beim \say{spatio-temporal clustering} werden die Elemente nach ihrer räumlichen und zeitlichen Ähnlichkeit gruppiert.
|
||||
Hierbei handelt es sich um ein relativ neues Verfahren, welches vor allem für geographische Anwendungen verwendet wird.\\
|
||||
\includegraphics[width = \textwidth]{GIS-models.png}\\
|
||||
Bei diesen Verfahren stellt meist nicht die 2- bzw. 3-dimensionale Darstellung der Daten, sondern die Kombination mit dem Faktor Zeit die Schwierigkeit dar.
|
||||
Es ist schwierig diesen Faktor in die Berechnung der Abstände einzubeziehen.
|
||||
Hierbei ist eine Klassifizierung dadurch möglich, dass die Daten in zwei Dimensionen separat klassifiziert werden.
|
||||
\begin{itemize}
|
||||
\item \textbf{zeitliche Dimension:}\\
|
||||
Hierbei gibt es unterschiedlich komplexe Ansätze
|
||||
\begin{itemize}
|
||||
\item \textbf{basic case:} enthält nur Elemente, die sich nicht verändern
|
||||
\item \textbf{more complex:} jedes Element kann den eigenen Status ändern
|
||||
\item \textbf{extreme complex:} jedes Element kann den eigenen Status ändern.
|
||||
Zudem werden die vergangenen Stati gemerkt
|
||||
\end{itemize}
|
||||
\item \textbf{räumliche Dimension:}\\
|
||||
beschreibt die räumliche Verortung der Elemente
|
||||
\end{itemize}
|
||||
\includegraphics[width = \textwidth]{spatio-temporal_complexity.png}
|
||||
|
||||
\section{Anwendungsbeispiele}
|
||||
\includegraphics[width=.9\textwidth]{spatio-temporal_applications.png}
|
||||
\subsection{Arctic Ice Movement}
|
||||
\say{
|
||||
The minimum Arctic sea ice extent occurs in September. The maximum is in February or March.
|
||||
Arctic sea ice maxima and minima have been shrinking for three decades.
|
||||
(NASA Earth Observatory maps by Joshua Stevens, based on AMSR2-E data from NSIDC)
|
||||
}\\
|
||||
\includegraphics[width = .8\textwidth]{arctic-ice.png}
|
BIN
images/GIS-models.png
Normal file
BIN
images/GIS-models.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 183 KiB |
BIN
images/KB_CLIQUE_excerpt.png
Normal file
BIN
images/KB_CLIQUE_excerpt.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 87 KiB |
BIN
images/arctic-ice.png
Normal file
BIN
images/arctic-ice.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 241 KiB |
BIN
images/spatio-temporal_applications.png
Normal file
BIN
images/spatio-temporal_applications.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 162 KiB |
BIN
images/spatio-temporal_complexity.png
Normal file
BIN
images/spatio-temporal_complexity.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 96 KiB |
@ -1,4 +1,7 @@
|
||||
\part{Unsupervised Learning}\label{unsupervised learning}
|
||||
|
||||
\input{chapters/Unsupervised Learning/Clustering.tex}
|
||||
\input{chapters/Unsupervised Learning/Clustering Algorithms.tex}
|
||||
\input{chapters/Unsupervised Learning/Clustering Algorithms.tex}
|
||||
\input{chapters/Unsupervised Learning/Number of Clusters.tex}
|
||||
\input{chapters/Unsupervised Learning/Association Rules und Link Analysis.tex}
|
||||
\input{chapters/Unsupervised Learning/Spatio-temporal clustering.tex}
|
Loading…
x
Reference in New Issue
Block a user