\chapter{Clustering} \label{clustering} \section{Definition} Allgemein gesagt bestimmt ein Clustering-Verfahren, ob zwei Elemente ähnlich bzw. unähnlich sind.\\ \includegraphics[width = .6\textwidth]{clustering_definition.png}\\ Ein Cluster ist eine Partition einer Datenstruktur in einem unbekannten Bereich. Damit das Clustering funktioniert müssen folgende Bedingungen gegeben sein: \begin{enumerate} \item Elemente in einem Cluster sind so ähnlich wie möglich\\ (qualitativ bewertendende Features sollten möglichst große Ähnlichkeiten erzeugen) \item der Unterschied von Elementen in unterschiedlichen Clustern sollte so groß wie möglich sein\\ (quantitativ bewertende Features sollten möglichst große Unähnlichkeiten erzeugen) \item die Messung der Ähnlichkeit bzw. Unähnlichkeit muss klar definiert sein und sollte einen praktischen Ursprung haben \end{enumerate} \section{Standardverfahren} \begin{enumerate} \item \textbf{Feature extraction and selection:} Auswahl der repräsentativsten Merkmale aus dem Datensatz \item \textbf{Clustering algorithm design:} Entwurf des Clustering Algorithmus in Abhängigkeit von den Eigenschaften des vorliegenden Problems \item \textbf{Result evaluation:} Aus- und Bewertung der Rückgabe des Clustering Algorithmus \item \textbf{Result explanation:} Erklärung der Ergebnisse des Clusterings \end{enumerate} \pagebreak \section{Abstandsbestimmung} Für den Abstand zwischen Elementen gelten 2 grundlegende Regeln: \begin{itemize} \item Triangle inequality: $d(x_i,x_j)\le d(x_i,x_j) + d(x_j,x_k) ~\forall x_i,x_j,x_k\in S$ \item $d(x_i,x_j) = 0 \Rightarrow x_i = x_j ~\forall x_i,x_j\in S$ \end{itemize} \subsection{Minkowski Abstand} $$ \left(\sum^d_{i=1}|x_{il}-x_{jl}|^n\right)^{\frac{1}{n}} $$ Hieraus leiten sich genauer definierte Abstandsfunktionen ab: \begin{itemize} \item $n=1$: City-block distance \item $n=2$: Euclidean distance \item $n\rightarrow\infty$: Chebyshev distance \end{itemize} \section{Ähnlichkeitsbestimmung} Die allgemeine Schreibweise für die Ähnlichkeitsfunktion (similarity function) ist $s(x_i,x_j)$. Alle Ähnlichkeitsfunktionen haben gemeinsam, dass sie symmetrisch sind ($s(x_i,x_j) = s(x_j,x_i)$). Meist sind die Funktionen so aufgebaut, dass sie die Ähnlichkeit im Intervall $[0,1]$, $[0,\infty]$ oder $[-\infty,\infty]$ angeben. \subsection{Cosine distance} $$1-\cos \alpha = \frac{x_i^T x_j}{||x_i|| ||x_j||}$$ Eigenschaften: \begin{itemize} \item unabhängig von der Rotation der Daten \end{itemize} \subsection{Pearson correlation distance} $$ 1-\frac{\text{Cov}(x_i,x_j)}{\sqrt{D(x_i)}\sqrt{D(x_j)}} $$ Eigenschaften: \begin{itemize} \item $\text{Cov}=$ Covarianz \item $D = $ Varianz \item Misst den Abstand in Abhängigkeit von der linearen Korelation \end{itemize} \subsection{Mahalanobis distance} $$ \sqrt{(x_i-x_j)^T S^{-1}(x_i-x_j)} $$ \begin{itemize} \item $S =$ Covarianz Matrix innerhalb des Clusters \item hohe rechnerische Komplexität \end{itemize} \subsection{Jaccard similarity} $$ J (A,B) = \frac{|A\cap B|}{|A\cup B|} $$ \begin{itemize} \item Misst die Ähnlichkeit von zwei Sets \item $|X|=$ Anzahl der Elemente in einem Set \item $\text{Jaccard distance} = 1-\text{Jaccard similarity}$ \end{itemize} \subsection{Hamming similarity} \say{minimale Anzahl von Substitutionen um einen Datenpunkt in einen anderen zu transformieren} \section{Bewertung des Clustering Algorithmus} Die Bewertung eines Clustering Algorithmus ist nur sehr schwer objektiv Möglich. Aufgrund dessen sind die meisten Bewertungen abhängig von den Kriterien des Bewertenden. Allgmein wird zwischen internen Bewertungskriterien (internal evaluation indicators) und externen Bewertungskriterien (external evaluation indicators) unterschieden.\\ Beispiele für interne Bewertungskriterien sind die \say{intra-cluster homogenity} und die \say{inter-cluster separability}. Diese lassen sich allerdings auch kombinieren. Alle internen Bewertungskriterien haben gemein, dass sie keine Informationen ausserhalb der Datenbasis in dei Bewertung einschließen.\\ Externe Bewertungskriterien vergleichen meist extern bekannte Beziehungen mit den vom Clustering Algorithmus ermittelten. Beispiele für externe Bewertungskriterien sind (weitere unter \href{https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers}{https://en.wikipedia.org/wiki/Evaluation\_of\_binary\_classifiers}):\\ ($TP:$ True Positive; $TN:$ True Negative; $FN:$ False Negative; $FP:$ False Positive) \paragraph{Accuracy} $$ACC=\frac{TP+TN}{P+NP}=\frac{TP+TN}{TP+TN+FP+FN}$$ Die Accuracy hat den Nachteil, dass sie nur den gesamten relativen Fehler angibt. Dies ist vor allem dann problematisch, wenn eine bestimmte Klasse nur wenig Daten im Datensatz hat.\\ \textbf{Beispiel:} Eine Wettervorhersage, die nie Regen vorhersagt hat eine hohe Accuracy, da es nur mit einer geringen Wahrscheinlichkeit regnet. \paragraph{Precision} $$P=\frac{TP}{TP+FP}$$ Wird auch als \ac{PPV} bezeichnet \paragraph{Recall} $$R=\frac{TP}{TP+FN}$$ Wird auch als \ac{TPR} bezeichnet \paragraph{F1-Maß} $$F_1=2\cdot\frac{P\cdot R}{P+R}=\frac{2TP}{2TP+FP+FN}$$