diff --git a/Acronyms.tex b/Acronyms.tex index 4d1f52d..12bdcc2 100644 --- a/Acronyms.tex +++ b/Acronyms.tex @@ -8,4 +8,5 @@ \acro{KKT} {Karush-Kuhn-Tucker} \acro{RBF} {Radial Basis Function} \acro{DBSCAN} {Density-Based Spatial Clustering of Applications with Noise} + \acro{VSM}{Vector Space Model} \end{acronym} \ No newline at end of file diff --git a/chapters/Supervised Learning/Linear Machines.tex b/chapters/Supervised Learning/Linear Machines.tex index 506b4a2..281ffbf 100644 --- a/chapters/Supervised Learning/Linear Machines.tex +++ b/chapters/Supervised Learning/Linear Machines.tex @@ -63,7 +63,7 @@ \subsection{Beispiel: symmetrischer Lernalgorithmus} \includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus_symmetrisch.png} - \section{\acs{VC-Dimension}}\label{vc-dimension} + \section{\ac{VC-Dimension}}\label{vc-dimension} Die \acl{VC-Dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung. \subsection{Shattering} @@ -135,7 +135,7 @@ \begin{itemize} \item $N$: Anzahl der Trainingsdatenpunkte \item $\kappa$: das \say{confidence level}, $0\le\kappa\le1$ - \item $h$: \acs{VC-Dimension} (\ref{vc-dimension}) + \item $h$: \ac{VC-Dimension} (\ref{vc-dimension}) \end{itemize} \includegraphics[width=.8\textwidth]{risk-bound.png} @@ -150,7 +150,7 @@ \includegraphics[width=.6\textwidth]{structural_risk.png} \subsubsection{\acl{SRM}} - Das strukurelle Risiko kann entweder dadurch reduziert werden, + \ac{SRM} kann entweder dadurch erreicht werden, dass das empirische Risiko (\ref{empirical risk}) bei gleichbleibenden $\varepsilon$ (\ref{capacity term}) reduziert wird, - oder durch eine Reduzierung von $\varepsilon$ bei gleichbleibenden empirishen Risiko. - Letzteres ist der Ansatz den die \acs{SVM}s (\ref{svm}) verfolgen. \ No newline at end of file + oder durch eine Reduzierung von $\varepsilon$ bei gleichbleibenden empirischen Risiko. + Letzteres ist der Ansatz den die \ac{SVM}s (\ref{svm}) verfolgen. \ No newline at end of file diff --git a/chapters/Supervised Learning/SVM.tex b/chapters/Supervised Learning/SVM.tex index c5454b0..7d01ced 100644 --- a/chapters/Supervised Learning/SVM.tex +++ b/chapters/Supervised Learning/SVM.tex @@ -1,5 +1,5 @@ \chapter{\acl{SVM}}\label{svm} - \acs{SVM}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\ + \ac{SVM}s können als lineare (\ref{linear machines}) oder nicht-lineare Maschinen aufgebaut werden.\\ \begin{tabular}{|p{.475\textwidth}|p{.475\textwidth}|} \hline \textbf{Vorteile} & \textbf{Nachteile}\\ @@ -63,7 +63,7 @@ \frac{\delta L_\alpha}{\delta w_0} &= 0 \Rightarrow \sum^N_{i=1}\alpha_i \cdot g_i = 0\\ \frac{\delta L_\alpha}{\delta \bm{w}} &= 0 \Rightarrow \bm{w} - \sum^N_{i=1}\alpha_i \cdot \bm{m}_i \cdot g_i = 0 \rightarrow \bm{w} = \sum^N_{i=1}\alpha_i \cdot g_i \cdot \bm{m}_i \end{align*} - Hieraus ergeben sich die \acl{KKT} Bedingungen + Hieraus ergeben sich die \ac{KKT}-Bedingungen \begin{align*} (\bm{w}^T\bm{m}_i + w_0)\cdot g_i - 1 &\ge 0 \\ \alpha_i &\ge 0 \\ @@ -72,10 +72,10 @@ Jeder Datenpunkt, für den $\alpha_i>0$ gilt, ist ein \say{support vector}. \subsubsection{Sparsity} - \acs{SVM}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen. + \ac{SVM}s sind \say{sparse learning machines}, da Sie meist nur von wenigen Support Vektoren abhängen. \section{nicht-lineare \acl{SVM}}\label{non linear svm} - \acs{SVM}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen. + \ac{SVM}s können auch dafür benutzt werden, nicht-linear-trennbare Cluster zu teilen. Hierfür müssen einige mathematischen Tricks angewandt werden. \subsection{Dual Representation **} @@ -119,13 +119,14 @@ \includegraphics[width=.8\textwidth]{kernel_trick_polynomial_kernel.png} \subsubsection{Beispiel: Gausian \acl{RBF} Kernel} + Der \say{Gausian \ac{RBF}} Kernel ist definiert durch: $$K(\bm{m}_i,\bm{m}_j) = \exp\left(-\frac{||\bm{m}_1-\bm{m}_2||^2}{2\sigma^2}\right)$$ \includegraphics[width=\textwidth]{kernel_trick_example.png} \section{Soft Margin} Falls Daten vorliegen, die nicht \say{einfach} (\ref{occam's razor}) separierbar sind ist es zwar möglich den Feature Space so zu transformieren, dass er linear separierbar wird, allerdings ist dies wenig sinnvoll. - Hierbei ist die \acs{VC-Dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist. + Hierbei ist die \ac{VC-Dimension} sehr hoch, weshalb auch die Gefahr für Overfitting sehr hoch ist. Dieses Problem kann umgangen werden, indem mittels \say{soft margins} zugelassen wird, dass eine geringe Anzahl an Datenpunkten auf der falschen Seite der Diskriminanten liegt.\\ \includegraphics[width=.6\textwidth]{soft_margin.png} diff --git a/chapters/Unsupervised Learning/Association Rules und Link Analysis.tex b/chapters/Unsupervised Learning/Association Rules und Link Analysis.tex index cb4dadf..a3b0f39 100644 --- a/chapters/Unsupervised Learning/Association Rules und Link Analysis.tex +++ b/chapters/Unsupervised Learning/Association Rules und Link Analysis.tex @@ -8,6 +8,7 @@ Um dennoch auffällige Kombinationen zu erkennen wird anhand der rohen Wahrscheinlichkeiten für den Kauf eines Produktes ein Erwartungswert für eine Kombination bestimmt. \section{Link Analysis} + \label{section:link analysis} \say{Link Analysis} ist der allgemeine Ausdruck für die Analyse von Daten, die als Knoten und Kanten eines Graphen dargestellt werden können. Interessant sind hierbei vor allem das CLIQUE-Problem. \begin{figure}[H] diff --git a/chapters/Unsupervised Learning/Clustering Algorithms.tex b/chapters/Unsupervised Learning/Clustering Algorithms.tex index a8c7b07..3e835dd 100644 --- a/chapters/Unsupervised Learning/Clustering Algorithms.tex +++ b/chapters/Unsupervised Learning/Clustering Algorithms.tex @@ -2,6 +2,7 @@ \includegraphics[width = .6\textwidth]{clustering_algorithms.png} \section{partition based algorithms} + \label{partition based clustering} Partitionsbasierte Clustering Algorithmen starten mit einer vordefinierten Partitionierung. Anschließend werden die Elemente so lange zwischen den Partitionen verschoben, bis das optimale Ziel erreicht ist. Die meisten dieser Algorithmen erfordern, dass die Anzahl der angestrebten Partitionen vorgegeben ist.\\ @@ -38,6 +39,7 @@ \includegraphics[width = .9\textwidth]{k-means.png} \section{Hierachische Verfahren} + \label{hierarchical clustering} \includegraphics[width = \textwidth]{hierachische Verfahren.png}\\ \begin{tabular}{|p{.475\textwidth}|p{.475\textwidth}|} \hline @@ -104,7 +106,7 @@ $O(n\cdot \log n)$ \section{density based clustering}\label{density based clustering} - Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \acs{DBSCAN} bezeichnet. + Algorithmen, die davon ausgehen, dass die Elemente in einem Cluster nach einer bestimmbaren Funktion normalverteilt um ein Zentrum liegen werden als \ac{DBSCAN} bezeichnet. Hierfür benötigt der \ac{DBSCAN} Algorithmus 2 Parameter:\\ \includegraphics[width = .8\textwidth]{dbscan-parameters.png}\\ Für eine gute Auswahl der Parameter ist Vorwissen über den Datensatz erforderlich.\\ diff --git a/chapters/Unsupervised Learning/Spatio-temporal clustering.tex b/chapters/Unsupervised Learning/Spatio-temporal clustering.tex index ca3b634..7ce7c06 100644 --- a/chapters/Unsupervised Learning/Spatio-temporal clustering.tex +++ b/chapters/Unsupervised Learning/Spatio-temporal clustering.tex @@ -25,6 +25,5 @@ \say{ The minimum Arctic sea ice extent occurs in September. The maximum is in February or March. Arctic sea ice maxima and minima have been shrinking for three decades. - (NASA Earth Observatory maps by Joshua Stevens, based on AMSR2-E data from NSIDC) }\\ \includegraphics[width = .8\textwidth]{arctic-ice.png} diff --git a/chapters/Unsupervised Learning/Web Document Clustering Approaches.tex b/chapters/Unsupervised Learning/Web Document Clustering Approaches.tex new file mode 100644 index 0000000..8e0b21a --- /dev/null +++ b/chapters/Unsupervised Learning/Web Document Clustering Approaches.tex @@ -0,0 +1,28 @@ +\chapter{Web Document clustering Approaches} +\label{chapter:web document clustering approaches} + Im Kern ist das Internet eine Sammlung von Dokumenten. + Daher besteht die Aufgabe eines Browsers darin diese Dokumente effektiv zu strukturieren, um sie in kurzer Zeit durchsuchen zu können. + Auch hierfür werden Clustering Algorithmen verwendet. + Meist werden hierbei Hybrid Methoden aus dem Bereich des Text-based Clustering (\ref{text-based clustering}) und der Link Analysis (\ref{section:link analysis}). + Dieser Ansatz wird allgemein als \say{Web-Mining} bezeichnet. + + \section{\acl{VSM}} + \label{vsm} + Bei der Modellierung mithilfe eines \ac{VSM} werden die Charakteristika und Attribute eines Dokumentes ausgewählt und nach ihrer Relevanz gewichtet. + + \subsection{Beispiel: The Boxer Rebellion} + \label{vsm example - the boxer rebellion} + \includegraphics[width = \textwidth]{the-boxer-rebellion.png} + + \section{Text-based Clustering} + \label{text-based clustering} + Der Grundgedanke des \say{text-based Clustering} ist, dass zwei Dokumente, die ähnliche Attribute enthalten mit hoher Wahrscheinlichkeit ähnlich sind. + Um dies zu untersuchen werden zumeist partionierende (\ref{partition based clustering}) oder hierarchische (\ref{hierarchical clustering}) Clustering Algorithmen verwendet. + Diese Algorithmen nutzen allerdings meist nur den genauen Wortlaut ohne die \textbf{semantische Ähnlichkeit} der Wörter zu beachten. + Das Stichwort für die innere Ähnlichkeit in der Semantik von Wörtern wird als Ontologie bezeichnet.\\ + \includegraphics[width=.8\textwidth]{ontology.png}\\ + + \subsection{THESUS} + \label{thesus} + \say{THESUS} ist eine modifizierte Version des \ac{DBSCAN} Algorithmus' (\ref{density based clustering}), welcher Rücksicht auf die Ontologie verschiedener Wörter nimmt. + \ No newline at end of file diff --git a/images/ontology.png b/images/ontology.png new file mode 100644 index 0000000..8b7ccec Binary files /dev/null and b/images/ontology.png differ diff --git a/images/the-boxer-rebellion.png b/images/the-boxer-rebellion.png new file mode 100644 index 0000000..2c46f08 Binary files /dev/null and b/images/the-boxer-rebellion.png differ diff --git a/parts/Unsupervised Learning.tex b/parts/Unsupervised Learning.tex index 2e21be8..0a9728b 100644 --- a/parts/Unsupervised Learning.tex +++ b/parts/Unsupervised Learning.tex @@ -4,4 +4,5 @@ \input{chapters/Unsupervised Learning/Clustering Algorithms.tex} \input{chapters/Unsupervised Learning/Number of Clusters.tex} \input{chapters/Unsupervised Learning/Association Rules und Link Analysis.tex} -\input{chapters/Unsupervised Learning/Spatio-temporal clustering.tex} \ No newline at end of file +\input{chapters/Unsupervised Learning/Spatio-temporal clustering.tex} +\input{chapters/Unsupervised Learning/Web Document Clustering Approaches.tex} \ No newline at end of file