generated from TH_General/Template_Summary
finished perzeptron und vc-dimension
This commit is contained in:
@@ -52,6 +52,41 @@
|
||||
$$g(\bm{m}) > 0 \forall \bm{m}\in C_2$$
|
||||
$$g(\bm{m}) < 0 \forall \bm{m}\in C_1$$
|
||||
|
||||
\subsection{Das technische Neuron}
|
||||
Ein technisches Neuron besteht aus den Gewichten für die Eingangswerte und der Aktivierungsfunktion:\\
|
||||
\includegraphics[width=.8\textwidth]{technisches_neuron.png}
|
||||
\section{Das technische Neuron}
|
||||
Ein technisches Neuron besteht aus den Gewichten für die Eingangswerte und der Aktivierungsfunktion:\\
|
||||
\includegraphics[width=.8\textwidth]{technisches_neuron.png}
|
||||
|
||||
\section{Das Perzeptron}
|
||||
Ein Perzeptron beschreibt eine lineare Maschine, die eine Datenmenge durch eine Hyper-Ebene (die Diskriminante) in zwei Cluster unterteilt.
|
||||
Die Funktion für die Diskriminante ist hierbei $y(\bm{m})=\text{sng}(g(\bm{m})) = \text{sgn}(\bm{w}^T\bm{m}+w_0)$.
|
||||
Da sich $\bm{w}$ durch $\bm{w} = \sum^n_{i=1}\alpha_i\cdot y_i \cdot \bm{m}_i$ (mit $n = $Anzahl der Datenpunkte und $\alpha_i = $ Anzahl, wie oft $\bm{m}_i$ ausgewählt wurde) definiert ist die Dimension von $\bm{m}$ unwichtig.
|
||||
|
||||
\subsection{Beispiel: nicht-symmetrischer Lernalgorithmus}
|
||||
\includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus.png}
|
||||
|
||||
\subsection{Novikoff's Theorem}
|
||||
Novikoff's Theorem besagt, dass der Lernalgorithmus des Perzeptrons bei einem linear trennbaren Datensatz unweigerlich eine Diskriminante findet.
|
||||
Zudem besagt es, dass der Algorithmus bei einem nicht linear separierbaren Datensatz nicht konvergieren kann.
|
||||
Um die Konvergenz zu beschleunigen ist es sinnvoll die sigmoid-Funktion anstatt der signum-Funktion zu verwenden.
|
||||
$$ \text{sigm}(x)=\frac{2}{1+e^ {-x}}-1; -1\le\text{sigm}(x)\le 1$$
|
||||
|
||||
\subsection{Beispiel: symmetrischer Lernalgorithmus}
|
||||
\includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus_symmetrisch.png}
|
||||
|
||||
\section{\acs{vc-dimension}}
|
||||
Die \acl{vc-dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung.
|
||||
|
||||
\subsection{Shattering}
|
||||
\say{Here we will only consider functions that correspond to the two-class pattern recognition case, so that $g(\bm{m}, y) \in \{-1, 1\}\forall x, y$.
|
||||
Now if a given set of n points can be labeled in all possible $2^n$ ways,
|
||||
and for each labeling, a member of the set $\{g(y)\}$ can be found which correctly assigns those labels, we say that that set of points is shattered by that set of functions.}\\
|
||||
Hierbei zergliedert (shatters) eine Hyperebene in einem Feature Space $\mathbb{R}^d$ $h=d+1$ linear unabhängige Punkte.
|
||||
|
||||
\subsubsection{Beispiel: Shattering im 2-dimensionalen Raum}
|
||||
\includegraphics[width = .7\textwidth]{vc-dimension_shattering.png}
|
||||
|
||||
\subsection{Das XOR-Problem}
|
||||
Um das XOR-Problem zu zergliedern werden 2 Diskriminanten benötigt:\\
|
||||
\includegraphics[width=.8\textwidth]{XOR-Problem1.png}\\
|
||||
Um das XOR-Problem von einer linearen Maschine klassifizieren zu lassen muss diese aus mindestens 2 Schichten bestehen.\\
|
||||
\includegraphics[width=\textwidth]{XOR-Problem2.png}
|
||||
Reference in New Issue
Block a user