formatierung verbessert

This commit is contained in:
2021-02-04 20:30:35 +01:00
parent 412f5005b3
commit 631f74c840
18 changed files with 112 additions and 56 deletions

View File

@@ -47,7 +47,9 @@
\section{Übersicht über die Welt der \ac{KI}}
\label{ml: uebersicht}
\includegraphics[width = \textwidth]{übersicht_ki.png}
\begin{center}
\includegraphics[width = .7\textwidth]{übersicht_ki.png}
\end{center}
\subsection{Einordnung}
\label{ml: uebersicht: einordnung}
@@ -78,6 +80,7 @@
So soll ein Klassifizierer beispielsweise nicht die perfekte Lösung für die Trainingsdaten liefern, sondern lediglich eine \textbf{generalisierte} Lösung erstellen,
die auch unbekannte Daten gut klassifiziert.\\
\includegraphics[width = \textwidth]{generalisierung.png}
\pagebreak
\section{Hypothesenraum}
\label{ml: hypothesenraum}
@@ -96,7 +99,10 @@
Von den Trainingsdaten werden bei vielen Modellerstellungen noch einmal 20\% für die Validierung während des Trainings abgespalten.
Bei dem Splitten der Daten muss darauf geachtet werden, dass das Datenverhältnis in den Splits dem Gesamtdatensatz entspricht.
D.h. z.B. das sortierte Daten vor dem splitten gemischt werden müssen\\
\includegraphics[width = .8\textwidth]{train_test_split.png}
\begin{center}
\includegraphics[width = .8\textwidth]{train_test_split.png}
\end{center}
\pagebreak
\subsection{N-fold Cross-Validation}
\label{ml: n-fold cross-validation}

View File

@@ -84,10 +84,9 @@
\section{Einordnung in Maschinelles Lernen}
\label{rl: einordnung}
Das /ac{RL} ist ein Teil des \acf{ML}.\\
\includegraphics[width = .6\textwidth]{reinforcement_learning_einordnung.png}
Es hat viele Schnittstellen zu den verschiedensten Wissenschaften.\\
\includegraphics[width = .8\textwidth]{reinforcement_learning_schnittstellen.png}
Das \ac{RL} ist ein Teil des \acf{ML}, hat aber viele Schnittstellen zu den verschiedensten Wissenschaften.\\
\includegraphics[width = .5\textwidth]{reinforcement_learning_einordnung.png}
\includegraphics[width = .5\textwidth]{reinforcement_learning_schnittstellen.png}
\section{Active Reinforcement Learning}
\label{active reinforcement learning}
@@ -102,7 +101,7 @@
$$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
$$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
\includegraphics[width =.8\textwidth]{q-learning.png} \\
\includegraphics[width =.9\textwidth]{q-learning.png} \\
Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.\\
\begin{tabular}{|p{.465\textwidth}|p{.465\textwidth}|}
\hline