44 lines
2.2 KiB
TeX
44 lines
2.2 KiB
TeX
\chapter{Ähnlichkeitsbasiertes Lernen}
|
|
\label{similarity-based learning}
|
|
Beim \say{ähnlichkeitsbasiertem Lernen} geht man von der Annahme aus, dass sich zwei ähnliche Objekte vermutlich in die gleiche Klasse einordnen lassen.
|
|
Um dieses Lernverfahren zu verwenden wird ein Maß für die Ähnlichkeit benötigt.
|
|
|
|
\section{Ähnlichkeitsmaß}
|
|
\label{aehnlichkeitsmass}
|
|
\paragraph{Euklidischer Abstand}
|
|
\large
|
|
$$dist_e(a,b))\sqrt{\sum^n_{i=1}\left(a[i]-b[i]\right)^2}$$
|
|
\normalsize
|
|
|
|
\paragraph{Manhattan-Metrik}
|
|
\large
|
|
$$dist_m(a,b)=\sum^n_{i=1}|a[i]-b[i]|$$
|
|
\normalsize
|
|
|
|
\section{K-Nächste-Nachbarn}
|
|
\label{k-nearest-neighbour}
|
|
Beim \say{K-Nächste-Nachbarn}-Verfahren wird dem System eine Reihe von gelabelten Trainingsdaten übergeben.
|
|
Für die Klassifizierung erfolgt durch
|
|
\begin{enumerate}
|
|
\item Berechnung des Ähnlichkeitsmaßes (\ref{aehnlichkeitsmass})/ der Distanz zu allen bekannten Punkten
|
|
\item Klassifizierung der Daten durch ein Mehrheitsvotum der $k$ nächsten Nachbarn
|
|
\end{enumerate}
|
|
|
|
\subsection{gewichtete K-Nächste-Nachbarn}
|
|
\label{weight k-nearest-neighbour}
|
|
Eine Abwandlung des K-Nächste-Nachbarverfahren, bei dem nicht einfach nach Mehrheit entschieden wird.
|
|
Stattessen werden die \say{Stimmen} der $k$ nächsten Nachbarn nach ihrem Abstand zum neuen Punkt gewichtet.
|
|
$$class(q)=\arg\max_{l\in level(y)}\sum^k_{i=1}\frac{1}{dist(q,d_i)^2}\cdot\delta(y_i,l)$$
|
|
$$\delta(y,l)=\begin{cases}
|
|
1 &\text{wenn }y=l\\
|
|
0 &\text{sonst}
|
|
\end{cases}$$
|
|
|
|
\subsection{Normalisierung}
|
|
\label{k-nearest-neighbour: normalisierung}
|
|
Da unterschiedliche Wertebereiche der verschiedenen Features einen großen Einfluss auf den K-Nächsten Nachbarn haben müssen sie normalisiert werden.
|
|
Hierbei ist es üblich alle Merkmale auf das Intervall $[0,1]$ zu normalisieren.
|
|
z.B. durch
|
|
\large
|
|
$$a'_i=\frac{a_i-\min(a_i)}{\max(a_i)-\min(a_i)}$$
|
|
\normalsize |