finished perzeptron und vc-dimension

2021-01-26 22:30:20 +01:00
parent 77b3f6485e
commit 20deeb767e
8 changed files with 40 additions and 4 deletions
--- a/chapters/Supervised
+++ b/chapters/Supervised
@@ -52,6 +52,41 @@
            $$g(\bm{m}) > 0 \forall \bm{m}\in C_2$$
            $$g(\bm{m}) < 0 \forall \bm{m}\in C_1$$

-        \subsection{Das technische Neuron}
-            Ein technisches Neuron besteht aus den Gewichten für die Eingangswerte und der Aktivierungsfunktion:\\
-            \includegraphics[width=.8\textwidth]{technisches_neuron.png}
+    \section{Das technische Neuron}
+        Ein technisches Neuron besteht aus den Gewichten für die Eingangswerte und der Aktivierungsfunktion:\\
+        \includegraphics[width=.8\textwidth]{technisches_neuron.png}
+
+    \section{Das Perzeptron}
+        Ein Perzeptron beschreibt eine lineare Maschine, die eine Datenmenge durch eine Hyper-Ebene (die Diskriminante) in zwei Cluster unterteilt.
+        Die Funktion für die Diskriminante ist hierbei $y(\bm{m})=\text{sng}(g(\bm{m})) = \text{sgn}(\bm{w}^T\bm{m}+w_0)$.
+        Da sich $\bm{w}$ durch $\bm{w} = \sum^n_{i=1}\alpha_i\cdot y_i \cdot \bm{m}_i$ (mit $n = $Anzahl der Datenpunkte und $\alpha_i = $ Anzahl, wie oft $\bm{m}_i$ ausgewählt wurde) definiert ist die Dimension von $\bm{m}$ unwichtig.
+        
+        \subsection{Beispiel: nicht-symmetrischer Lernalgorithmus}
+            \includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus.png}
+
+        \subsection{Novikoff's Theorem}
+            Novikoff's Theorem besagt, dass der Lernalgorithmus des Perzeptrons bei einem linear trennbaren Datensatz unweigerlich eine Diskriminante findet.
+            Zudem besagt es, dass der Algorithmus bei einem nicht linear separierbaren Datensatz nicht konvergieren kann.
+            Um die Konvergenz zu beschleunigen ist es sinnvoll die sigmoid-Funktion anstatt der signum-Funktion zu verwenden.
+            $$ \text{sigm}(x)=\frac{2}{1+e^ {-x}}-1; -1\le\text{sigm}(x)\le 1$$
+
+        \subsection{Beispiel: symmetrischer Lernalgorithmus}
+            \includegraphics[width=.8\textwidth]{Perzeptron_Lernalgorithmus_symmetrisch.png}
+
+    \section{\acs{vc-dimension}}
+        Die \acl{vc-dimension} gibt ein Maß für die \say{learning power} einer Klassifizierung.
+
+        \subsection{Shattering}
+            \say{Here we will only consider functions that correspond to the two-class pattern recognition case, so that $g(\bm{m}, y) \in \{-1, 1\}\forall x, y$.
+            Now if a given set of n points can be labeled in all possible $2^n$ ways,
+            and for each labeling, a member of the set $\{g(y)\}$ can be found which correctly assigns those labels, we say that that set of points is shattered by that set of functions.}\\
+            Hierbei zergliedert (shatters) eine Hyperebene in einem Feature Space $\mathbb{R}^d$ $h=d+1$ linear unabhängige Punkte.
+
+            \subsubsection{Beispiel: Shattering im 2-dimensionalen Raum}
+                \includegraphics[width = .7\textwidth]{vc-dimension_shattering.png}
+
+            \subsection{Das XOR-Problem}
+                Um das XOR-Problem zu zergliedern werden 2 Diskriminanten benötigt:\\
+                \includegraphics[width=.8\textwidth]{XOR-Problem1.png}\\
+                Um das XOR-Problem von einer linearen Maschine klassifizieren zu lassen muss diese aus mindestens 2 Schichten bestehen.\\
+                \includegraphics[width=\textwidth]{XOR-Problem2.png}