generated from TH_General/Template_Summary
formatierung verbessert
This commit is contained in:
@@ -47,7 +47,9 @@
|
||||
|
||||
\section{Übersicht über die Welt der \ac{KI}}
|
||||
\label{ml: uebersicht}
|
||||
\includegraphics[width = \textwidth]{übersicht_ki.png}
|
||||
\begin{center}
|
||||
\includegraphics[width = .7\textwidth]{übersicht_ki.png}
|
||||
\end{center}
|
||||
|
||||
\subsection{Einordnung}
|
||||
\label{ml: uebersicht: einordnung}
|
||||
@@ -78,6 +80,7 @@
|
||||
So soll ein Klassifizierer beispielsweise nicht die perfekte Lösung für die Trainingsdaten liefern, sondern lediglich eine \textbf{generalisierte} Lösung erstellen,
|
||||
die auch unbekannte Daten gut klassifiziert.\\
|
||||
\includegraphics[width = \textwidth]{generalisierung.png}
|
||||
\pagebreak
|
||||
|
||||
\section{Hypothesenraum}
|
||||
\label{ml: hypothesenraum}
|
||||
@@ -96,7 +99,10 @@
|
||||
Von den Trainingsdaten werden bei vielen Modellerstellungen noch einmal 20\% für die Validierung während des Trainings abgespalten.
|
||||
Bei dem Splitten der Daten muss darauf geachtet werden, dass das Datenverhältnis in den Splits dem Gesamtdatensatz entspricht.
|
||||
D.h. z.B. das sortierte Daten vor dem splitten gemischt werden müssen\\
|
||||
\includegraphics[width = .8\textwidth]{train_test_split.png}
|
||||
\begin{center}
|
||||
\includegraphics[width = .8\textwidth]{train_test_split.png}
|
||||
\end{center}
|
||||
\pagebreak
|
||||
|
||||
\subsection{N-fold Cross-Validation}
|
||||
\label{ml: n-fold cross-validation}
|
||||
|
||||
@@ -84,10 +84,9 @@
|
||||
|
||||
\section{Einordnung in Maschinelles Lernen}
|
||||
\label{rl: einordnung}
|
||||
Das /ac{RL} ist ein Teil des \acf{ML}.\\
|
||||
\includegraphics[width = .6\textwidth]{reinforcement_learning_einordnung.png}
|
||||
Es hat viele Schnittstellen zu den verschiedensten Wissenschaften.\\
|
||||
\includegraphics[width = .8\textwidth]{reinforcement_learning_schnittstellen.png}
|
||||
Das \ac{RL} ist ein Teil des \acf{ML}, hat aber viele Schnittstellen zu den verschiedensten Wissenschaften.\\
|
||||
\includegraphics[width = .5\textwidth]{reinforcement_learning_einordnung.png}
|
||||
\includegraphics[width = .5\textwidth]{reinforcement_learning_schnittstellen.png}
|
||||
|
||||
\section{Active Reinforcement Learning}
|
||||
\label{active reinforcement learning}
|
||||
@@ -102,7 +101,7 @@
|
||||
$$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
|
||||
Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
|
||||
$$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
|
||||
\includegraphics[width =.8\textwidth]{q-learning.png} \\
|
||||
\includegraphics[width =.9\textwidth]{q-learning.png} \\
|
||||
Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.\\
|
||||
\begin{tabular}{|p{.465\textwidth}|p{.465\textwidth}|}
|
||||
\hline
|
||||
|
||||
Reference in New Issue
Block a user