From d0bc5550b716791fe81918801283671a655361dd Mon Sep 17 00:00:00 2001 From: paul-loedige Date: Thu, 4 Feb 2021 10:58:42 +0100 Subject: [PATCH] fixed formatation --- chapters/Maschinelles Lernen/Reinforcement Learning.tex | 9 +++++---- 1 file changed, 5 insertions(+), 4 deletions(-) diff --git a/chapters/Maschinelles Lernen/Reinforcement Learning.tex b/chapters/Maschinelles Lernen/Reinforcement Learning.tex index 6071e84..711b11e 100644 --- a/chapters/Maschinelles Lernen/Reinforcement Learning.tex +++ b/chapters/Maschinelles Lernen/Reinforcement Learning.tex @@ -102,9 +102,9 @@ $$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$ Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning $$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$ - \includegraphics[width =.8\textwidth]{q-learning.png} - Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet. - \begin{tabular}{|p{.465\textwidth}|p{.465\textwidth|}} + \includegraphics[width =.8\textwidth]{q-learning.png} \\ + Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.\\ + \begin{tabular}{|p{.465\textwidth}|p{.465\textwidth}|} \hline \textbf{Vorteile} & \textbf{Herausforderungen}\\ \hline @@ -114,7 +114,8 @@ \item benötigt kein Modell für die Aktionsauswahl \end{itemize} & \begin{itemize} - \item Benötigt meist eine Simulation + \item Funktioniert es auch ohne Simulation? + (bisher ist das Reinforcement Learning vor allem in simulierten Umgebungen angewendet worden (z.B. Spiele)) \item Wie geht man mit großen Zustandsräumen um? \end{itemize}\\ \hline