27 lines
1.6 KiB
TeX

\chapter{Auswahl der Clusteranzahl}
Viele Clusterin Algorithmen (\ref{clustering algorithms}) erfordern es, dass die Anzahl der angestrebten Cluster als Parameter vorgegeben wird.
Dies kann einen großen Einfluss auf die Leistung der jeweiligen Verfahren haben.
Es gibt mehrere Methoden um die benötigte Anzahl an Clustern ($k$) zu bestimmen.
\section{Intra-Cluster Scatter Determination}
Mithilfe des \say{depression-decay}-Verfahrens kann ein Fehlerwert $W_k$ errechnet werden:
$$W_k = \sum^k_{i=1}\frac{1}{2n_i}D_i$$
Hierbei ist $D_i$ die Summe der paarweisen Abstände aller Elemente im Cluster $i$:
$$D_i = \sum_{x_l,x_m\in C_i}||x_l-x_m||$$
Anfänglich nimmt der \say{within-cluster decay} mit steigendem $k$ schnell ab.
Ab einem bestimmten $k$ flacht die Kurve ab.
Dieses $k$ wird als optimale Anzahl angenommen.
\section{Intra- and Inter-Cluster Scatter Determination}
Bei der \say{Intra- and Inter-Cluster Scatter Determination} wird versucht den \say{intra-cluster scatter} zu maximieren und den \say{inter-cluster scatter} zu maximieren.
\paragraph{$MICD_i$}
durchschnittlicher intra-cluster Abstand des $i$-ten Cluster:
$$ MICD_i = \sum_{x_l\in C_i} \frac{||x_l-\mu_i||}{n_i} $$
\paragraph{$ICMD_i$}
minimaler inter-cluster Abstand:
$$ ICMD_i = \min_{l\ne m}||\mu_l-\mu_m|| $$
\section{Probability Based Determination}
Mithilfe eines density-based Clustering Algorithmus (\ref{density based clustering}) wird eine Vermutung dazu aufgestellt, welches $k$ optimal ist.