generated from TH_General/Template_Summary
added association rules, link analysis, number of clusters and spatio-temporal clustering
This commit is contained in:
parent
93b3f58029
commit
7e21367ccd
@ -7,6 +7,7 @@
|
|||||||
\usepackage{graphicx}
|
\usepackage{graphicx}
|
||||||
\graphicspath{ {./images/} }
|
\graphicspath{ {./images/} }
|
||||||
\usepackage{wrapfig}
|
\usepackage{wrapfig}
|
||||||
|
\usepackage{float}
|
||||||
%svg images
|
%svg images
|
||||||
\usepackage{svg}
|
\usepackage{svg}
|
||||||
%quotation
|
%quotation
|
||||||
|
@ -0,0 +1,24 @@
|
|||||||
|
\chapter{Association Rules und Link Analysis}
|
||||||
|
\section{Association Rules}
|
||||||
|
\say{Association Rules} treffen Aussagen über den probabilistischen Zusammenhang verschiedener Features.
|
||||||
|
Erkenntnisse, die aus diesen Regeln getroffen werden können werden vor allen Dingen dazu verwendet Verkaufszahlen zu steigern,
|
||||||
|
indem Kunden Produkte angeboten werden, die sie interessieren könnten.
|
||||||
|
Die Auswahl der angebotenen Daten erfolgt hierbei auf Basis der Association Rules, die besagen, welche Produkte häufig zusammen gekauft werden.\\
|
||||||
|
Da die Anzahl der möglichen Kombinationen exponentiell abhängig von der Anzahl der erhältlichen Produkte ist, ist eine Analyse aller Kombinationen \textbf{unmöglich}.
|
||||||
|
Um dennoch auffällige Kombinationen zu erkennen wird anhand der rohen Wahrscheinlichkeiten für den Kauf eines Produktes ein Erwartungswert für eine Kombination bestimmt.
|
||||||
|
|
||||||
|
\section{Link Analysis}
|
||||||
|
\say{Link Analysis} ist der allgemeine Ausdruck für die Analyse von Daten, die als Knoten und Kanten eines Graphen dargestellt werden können.
|
||||||
|
Interessant sind hierbei vor allem das CLIQUE-Problem.
|
||||||
|
\begin{figure}[H]
|
||||||
|
\centering
|
||||||
|
\includegraphics[width = .6\textwidth]{KB_CLIQUE_excerpt.png}
|
||||||
|
\caption{Auszug aus der KB (Komplexität und Berechbarkeit) Zusammfassung}
|
||||||
|
\end{figure}
|
||||||
|
|
||||||
|
\subsection{Historische Entwicklung}
|
||||||
|
Der Einsatz von Computern im Bereich der Link Analysis hat zu folgenden Entwicklungen geführt:
|
||||||
|
\begin{itemize}
|
||||||
|
\item Die Darstellung von kriminellen und/oder Betrügungsnetzwerken, die früher statisch per Hand aufgezeichnet wurde kann nun automatisiert und dynamisch von einem Rechner erstellt werden.
|
||||||
|
\item Viele Menschen sind über verschiedenste Datenbanken miteinander verknüpft (z.B. gleiche Telefonnummer, gleiche Adresse, ...)
|
||||||
|
\end{itemize}
|
@ -103,7 +103,7 @@
|
|||||||
\paragraph{Zeitliche Komplexität}\mbox{}\\
|
\paragraph{Zeitliche Komplexität}\mbox{}\\
|
||||||
$O(n\cdot \log n)$
|
$O(n\cdot \log n)$
|
||||||
|
|
||||||
\section{density based clustering}
|
\section{density based clustering}\label{density based clustering}
|
||||||
Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \acs{DBSCAN} bezeichnet.
|
Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \acs{DBSCAN} bezeichnet.
|
||||||
Hierfür benötigt der \ac{DBSCAN} Algorithmus 2 Parameter:\\
|
Hierfür benötigt der \ac{DBSCAN} Algorithmus 2 Parameter:\\
|
||||||
\includegraphics[width = .8\textwidth]{dbscan-parameters.png}\\
|
\includegraphics[width = .8\textwidth]{dbscan-parameters.png}\\
|
||||||
|
27
chapters/Unsupervised Learning/Number of Clusters.tex
Normal file
27
chapters/Unsupervised Learning/Number of Clusters.tex
Normal file
@ -0,0 +1,27 @@
|
|||||||
|
\chapter{Auswahl der Clusteranzahl}
|
||||||
|
Viele Clusterin Algorithmen (\ref{clustering algorithms}) erfordern es, dass die Anzahl der angestrebten Cluster als Parameter vorgegeben wird.
|
||||||
|
Dies kann einen großen Einfluss auf die Leistung der jeweiligen Verfahren haben.
|
||||||
|
Es gibt mehrere Methoden um die benötigte Anzahl an Clustern ($k$) zu bestimmen.
|
||||||
|
|
||||||
|
\section{Intra-Cluster Scatter Determination}
|
||||||
|
Mithilfe des \say{depression-decay}-Verfahrens kann ein Fehlerwert $W_k$ errechnet werden:
|
||||||
|
$$W_k = \sum^k_{i=1}\frac{1}{2n_i}D_i$$
|
||||||
|
Hierbei ist $D_i$ die Summe der paarweisen Abstände aller Elemente im Cluster $i$:
|
||||||
|
$$D_i = \sum_{x_l,x_m\in C_i}||x_l-x_m||$$
|
||||||
|
Anfänglich nimmt der \say{within-cluster decay} mit steigendem $k$ schnell ab.
|
||||||
|
Ab einem bestimmten $k$ flacht die Kurve ab.
|
||||||
|
Dieses $k$ wird als optimale Anzahl angenommen.
|
||||||
|
|
||||||
|
\section{Intra- and Inter-Cluster Scatter Determination}
|
||||||
|
Bei der \say{Intra- and Inter-Cluster Scatter Determination} wird versucht den \say{intra-cluster scatter} zu maximieren und den \say{inter-cluster scatter} zu maximieren.
|
||||||
|
|
||||||
|
\paragraph{$MICD_i$}
|
||||||
|
durchschnittlicher intra-cluster Abstand des $i$-ten Cluster:
|
||||||
|
$$ MICD_i = \sum_{x_l\in C_i} \frac{||x_l-\mu_i||}{n_i} $$
|
||||||
|
|
||||||
|
\paragraph{$ICMD_i$}
|
||||||
|
minimaler inter-cluster Abstand:
|
||||||
|
$$ ICMD_i = \min_{l\ne m}||\mu_l-\mu_m|| $$
|
||||||
|
|
||||||
|
\section{Probability Based Determination}
|
||||||
|
Mithilfe eines density-based Clustering Algorithmus (\ref{density based clustering}) wird eine Vermutung dazu aufgestellt, welches $k$ optimal ist.
|
@ -0,0 +1,30 @@
|
|||||||
|
\chapter{Spatio-temporal clustering}
|
||||||
|
Beim \say{spatio-temporal clustering} werden die Elemente nach ihrer räumlichen und zeitlichen Ähnlichkeit gruppiert.
|
||||||
|
Hierbei handelt es sich um ein relativ neues Verfahren, welches vor allem für geographische Anwendungen verwendet wird.\\
|
||||||
|
\includegraphics[width = \textwidth]{GIS-models.png}\\
|
||||||
|
Bei diesen Verfahren stellt meist nicht die 2- bzw. 3-dimensionale Darstellung der Daten, sondern die Kombination mit dem Faktor Zeit die Schwierigkeit dar.
|
||||||
|
Es ist schwierig diesen Faktor in die Berechnung der Abstände einzubeziehen.
|
||||||
|
Hierbei ist eine Klassifizierung dadurch möglich, dass die Daten in zwei Dimensionen separat klassifiziert werden.
|
||||||
|
\begin{itemize}
|
||||||
|
\item \textbf{zeitliche Dimension:}\\
|
||||||
|
Hierbei gibt es unterschiedlich komplexe Ansätze
|
||||||
|
\begin{itemize}
|
||||||
|
\item \textbf{basic case:} enthält nur Elemente, die sich nicht verändern
|
||||||
|
\item \textbf{more complex:} jedes Element kann den eigenen Status ändern
|
||||||
|
\item \textbf{extreme complex:} jedes Element kann den eigenen Status ändern.
|
||||||
|
Zudem werden die vergangenen Stati gemerkt
|
||||||
|
\end{itemize}
|
||||||
|
\item \textbf{räumliche Dimension:}\\
|
||||||
|
beschreibt die räumliche Verortung der Elemente
|
||||||
|
\end{itemize}
|
||||||
|
\includegraphics[width = \textwidth]{spatio-temporal_complexity.png}
|
||||||
|
|
||||||
|
\section{Anwendungsbeispiele}
|
||||||
|
\includegraphics[width=.9\textwidth]{spatio-temporal_applications.png}
|
||||||
|
\subsection{Arctic Ice Movement}
|
||||||
|
\say{
|
||||||
|
The minimum Arctic sea ice extent occurs in September. The maximum is in February or March.
|
||||||
|
Arctic sea ice maxima and minima have been shrinking for three decades.
|
||||||
|
(NASA Earth Observatory maps by Joshua Stevens, based on AMSR2-E data from NSIDC)
|
||||||
|
}\\
|
||||||
|
\includegraphics[width = .8\textwidth]{arctic-ice.png}
|
BIN
images/GIS-models.png
Normal file
BIN
images/GIS-models.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 183 KiB |
BIN
images/KB_CLIQUE_excerpt.png
Normal file
BIN
images/KB_CLIQUE_excerpt.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 87 KiB |
BIN
images/arctic-ice.png
Normal file
BIN
images/arctic-ice.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 241 KiB |
BIN
images/spatio-temporal_applications.png
Normal file
BIN
images/spatio-temporal_applications.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 162 KiB |
BIN
images/spatio-temporal_complexity.png
Normal file
BIN
images/spatio-temporal_complexity.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 96 KiB |
@ -1,4 +1,7 @@
|
|||||||
\part{Unsupervised Learning}\label{unsupervised learning}
|
\part{Unsupervised Learning}\label{unsupervised learning}
|
||||||
|
|
||||||
\input{chapters/Unsupervised Learning/Clustering.tex}
|
\input{chapters/Unsupervised Learning/Clustering.tex}
|
||||||
\input{chapters/Unsupervised Learning/Clustering Algorithms.tex}
|
\input{chapters/Unsupervised Learning/Clustering Algorithms.tex}
|
||||||
|
\input{chapters/Unsupervised Learning/Number of Clusters.tex}
|
||||||
|
\input{chapters/Unsupervised Learning/Association Rules und Link Analysis.tex}
|
||||||
|
\input{chapters/Unsupervised Learning/Spatio-temporal clustering.tex}
|
Loading…
x
Reference in New Issue
Block a user