generated from TH_General/Template_Summary
27 lines
1.6 KiB
TeX
27 lines
1.6 KiB
TeX
\chapter{Auswahl der Clusteranzahl}
|
|
Viele Clusterin Algorithmen (\ref{clustering algorithms}) erfordern es, dass die Anzahl der angestrebten Cluster als Parameter vorgegeben wird.
|
|
Dies kann einen großen Einfluss auf die Leistung der jeweiligen Verfahren haben.
|
|
Es gibt mehrere Methoden um die benötigte Anzahl an Clustern ($k$) zu bestimmen.
|
|
|
|
\section{Intra-Cluster Scatter Determination}
|
|
Mithilfe des \say{depression-decay}-Verfahrens kann ein Fehlerwert $W_k$ errechnet werden:
|
|
$$W_k = \sum^k_{i=1}\frac{1}{2n_i}D_i$$
|
|
Hierbei ist $D_i$ die Summe der paarweisen Abstände aller Elemente im Cluster $i$:
|
|
$$D_i = \sum_{x_l,x_m\in C_i}||x_l-x_m||$$
|
|
Anfänglich nimmt der \say{within-cluster decay} mit steigendem $k$ schnell ab.
|
|
Ab einem bestimmten $k$ flacht die Kurve ab.
|
|
Dieses $k$ wird als optimale Anzahl angenommen.
|
|
|
|
\section{Intra- and Inter-Cluster Scatter Determination}
|
|
Bei der \say{Intra- and Inter-Cluster Scatter Determination} wird versucht den \say{intra-cluster scatter} zu maximieren und den \say{inter-cluster scatter} zu maximieren.
|
|
|
|
\paragraph{$MICD_i$}
|
|
durchschnittlicher intra-cluster Abstand des $i$-ten Cluster:
|
|
$$ MICD_i = \sum_{x_l\in C_i} \frac{||x_l-\mu_i||}{n_i} $$
|
|
|
|
\paragraph{$ICMD_i$}
|
|
minimaler inter-cluster Abstand:
|
|
$$ ICMD_i = \min_{l\ne m}||\mu_l-\mu_m|| $$
|
|
|
|
\section{Probability Based Determination}
|
|
Mithilfe eines density-based Clustering Algorithmus (\ref{density based clustering}) wird eine Vermutung dazu aufgestellt, welches $k$ optimal ist. |