id3 overfitting hinzugefügt

This commit is contained in:
paul-loedige 2021-02-08 21:31:29 +01:00
parent 45f341ad06
commit 1da6b3aaa5
2 changed files with 14 additions and 2 deletions

View File

@ -10,7 +10,7 @@ Dieses Repo beinhaltet die $\LaTeX$ Informationen für die Zusammenfassung im Fa
- [x] Entropie
- [x] Kullback-Leibler-Divergenz
- [x] ID3 Algorithmus
- [ ] Overfitting Lösung
- [x] Overfitting Lösung
- [x] Ähnlichkeitsbasiertes Lernen
- [x] K-Nächste-Nachbarn
- [x] Normalisierung

View File

@ -115,3 +115,15 @@
\item Menge der zu testenden Merkmal ist leer. Erstelle einen Blattknoten mit der Mehrheitsklasse des Teildatensatzes als Klassifikation.
\item Der Teildatensatz ist leer. Erstelle einen Blattknoten mit der Mehrheitsklasse des Teildatensatzes des Elternknotens.
\end{enumerate}
\subsection{Anti-Overfitting Maßnahmen}
\label{id3: anti-overfitting}
Da der ID3 Algorithmus im Prinzip nichts anderes tut, als die Trainingsdaten in einen Entscheidungsbaum umzubauen ist das Risiko für ein Overfitting sehr groß.
Um dies zu verhindern gibt es mehrere Ansätze:
\paragraph{Pre-Pruning}
Die Partitionierung wird frühzeitig (z.B. durch ein Limit für die Tiefe des Baums) gestoppt.
\paragraph{Post-Pruning}
Der Baum wird normal erstellt.
Anschließend werden (z.B. durch Validierungsdaten) die Zweige eliminiert, die ein Overfitting erzeugen.