generated from TH_General/Template_Summary
28 lines
1.9 KiB
TeX
28 lines
1.9 KiB
TeX
\chapter{Web Document clustering Approaches}
|
|
\label{chapter:web document clustering approaches}
|
|
Im Kern ist das Internet eine Sammlung von Dokumenten.
|
|
Daher besteht die Aufgabe eines Browsers darin diese Dokumente effektiv zu strukturieren, um sie in kurzer Zeit durchsuchen zu können.
|
|
Auch hierfür werden Clustering Algorithmen verwendet.
|
|
Meist werden hierbei Hybrid Methoden aus dem Bereich des Text-based Clustering (\ref{text-based clustering}) und der Link Analysis (\ref{section:link analysis}).
|
|
Dieser Ansatz wird allgemein als \say{Web-Mining} bezeichnet.
|
|
|
|
\section{\ac{VSM}}
|
|
\label{vsm}
|
|
Bei der Modellierung mithilfe eines \ac{VSM} werden die Charakteristika und Attribute eines Dokumentes ausgewählt und nach ihrer Relevanz gewichtet.
|
|
|
|
\subsection{Beispiel: The Boxer Rebellion}
|
|
\label{vsm example - the boxer rebellion}
|
|
\includegraphics[width = \textwidth]{the-boxer-rebellion.png}
|
|
|
|
\section{Text-based Clustering}
|
|
\label{text-based clustering}
|
|
Der Grundgedanke des \say{text-based Clustering} ist, dass zwei Dokumente, die ähnliche Attribute enthalten mit hoher Wahrscheinlichkeit ähnlich sind.
|
|
Um dies zu untersuchen werden zumeist partionierende (\ref{partition based clustering}) oder hierarchische (\ref{hierarchical clustering}) Clustering Algorithmen verwendet.
|
|
Diese Algorithmen nutzen allerdings meist nur den genauen Wortlaut ohne die \textbf{semantische Ähnlichkeit} der Wörter zu beachten.
|
|
Das Stichwort für die innere Ähnlichkeit in der Semantik von Wörtern wird als Ontologie bezeichnet.\\
|
|
\includegraphics[width=.8\textwidth]{ontology.png}\\
|
|
|
|
\subsection{THESUS}
|
|
\label{thesus}
|
|
\say{THESUS} ist eine modifizierte Version des \ac{DBSCAN} Algorithmus' (\ref{density based clustering}), welcher Rücksicht auf die Ontologie verschiedener Wörter nimmt.
|
|
|