From 1da6b3aaa5f7f9b37658df6bd5b31de57525f2df Mon Sep 17 00:00:00 2001 From: paul-loedige Date: Mon, 8 Feb 2021 21:31:29 +0100 Subject: [PATCH] =?UTF-8?q?id3=20overfitting=20hinzugef=C3=BCgt?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- Readme.md | 2 +- .../Informationsbasiertes Lernen.tex | 14 +++++++++++++- 2 files changed, 14 insertions(+), 2 deletions(-) diff --git a/Readme.md b/Readme.md index 84f65b2..0abac8c 100644 --- a/Readme.md +++ b/Readme.md @@ -10,7 +10,7 @@ Dieses Repo beinhaltet die $\LaTeX$ Informationen für die Zusammenfassung im Fa - [x] Entropie - [x] Kullback-Leibler-Divergenz - [x] ID3 Algorithmus - - [ ] Overfitting Lösung + - [x] Overfitting Lösung - [x] Ähnlichkeitsbasiertes Lernen - [x] K-Nächste-Nachbarn - [x] Normalisierung diff --git a/chapters/Maschinelles Lernen/Informationsbasiertes Lernen.tex b/chapters/Maschinelles Lernen/Informationsbasiertes Lernen.tex index d94cd83..1961826 100644 --- a/chapters/Maschinelles Lernen/Informationsbasiertes Lernen.tex +++ b/chapters/Maschinelles Lernen/Informationsbasiertes Lernen.tex @@ -114,4 +114,16 @@ \item Alle Instanzen im (Teil‐)Datensatz haben die gleiche Klassifikation (Zielmerkmal y). Erstelle einen Blattknoten mit dieser Klassifikation als Label. \item Menge der zu testenden Merkmal ist leer. Erstelle einen Blattknoten mit der Mehrheitsklasse des Teildatensatzes als Klassifikation. \item Der Teildatensatz ist leer. Erstelle einen Blattknoten mit der Mehrheitsklasse des Teildatensatzes des Elternknotens. - \end{enumerate} \ No newline at end of file + \end{enumerate} + + \subsection{Anti-Overfitting Maßnahmen} + \label{id3: anti-overfitting} + Da der ID3 Algorithmus im Prinzip nichts anderes tut, als die Trainingsdaten in einen Entscheidungsbaum umzubauen ist das Risiko für ein Overfitting sehr groß. + Um dies zu verhindern gibt es mehrere Ansätze: + + \paragraph{Pre-Pruning} + Die Partitionierung wird frühzeitig (z.B. durch ein Limit für die Tiefe des Baums) gestoppt. + + \paragraph{Post-Pruning} + Der Baum wird normal erstellt. + Anschließend werden (z.B. durch Validierungsdaten) die Zweige eliminiert, die ein Overfitting erzeugen.