\chapter{Web Document clustering Approaches} \label{chapter:web document clustering approaches} Im Kern ist das Internet eine Sammlung von Dokumenten. Daher besteht die Aufgabe eines Browsers darin diese Dokumente effektiv zu strukturieren, um sie in kurzer Zeit durchsuchen zu können. Auch hierfür werden Clustering Algorithmen verwendet. Meist werden hierbei Hybrid Methoden aus dem Bereich des Text-based Clustering (\ref{text-based clustering}) und der Link Analysis (\ref{section:link analysis}). Dieser Ansatz wird allgemein als \say{Web-Mining} bezeichnet. \section{\acl{VSM}} \label{vsm} Bei der Modellierung mithilfe eines \ac{VSM} werden die Charakteristika und Attribute eines Dokumentes ausgewählt und nach ihrer Relevanz gewichtet. \subsection{Beispiel: The Boxer Rebellion} \label{vsm example - the boxer rebellion} \includegraphics[width = \textwidth]{the-boxer-rebellion.png} \section{Text-based Clustering} \label{text-based clustering} Der Grundgedanke des \say{text-based Clustering} ist, dass zwei Dokumente, die ähnliche Attribute enthalten mit hoher Wahrscheinlichkeit ähnlich sind. Um dies zu untersuchen werden zumeist partionierende (\ref{partition based clustering}) oder hierarchische (\ref{hierarchical clustering}) Clustering Algorithmen verwendet. Diese Algorithmen nutzen allerdings meist nur den genauen Wortlaut ohne die \textbf{semantische Ähnlichkeit} der Wörter zu beachten. Das Stichwort für die innere Ähnlichkeit in der Semantik von Wörtern wird als Ontologie bezeichnet.\\ \includegraphics[width=.8\textwidth]{ontology.png}\\ \subsection{THESUS} \label{thesus} \say{THESUS} ist eine modifizierte Version des \ac{DBSCAN} Algorithmus' (\ref{density based clustering}), welcher Rücksicht auf die Ontologie verschiedener Wörter nimmt.