fixed formatation

This commit is contained in:
paul-loedige 2021-02-04 10:58:42 +01:00
parent 101bfba31f
commit d0bc5550b7

View File

@ -102,9 +102,9 @@
$$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
$$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
\includegraphics[width =.8\textwidth]{q-learning.png}
Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.
\begin{tabular}{|p{.465\textwidth}|p{.465\textwidth|}}
\includegraphics[width =.8\textwidth]{q-learning.png} \\
Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.\\
\begin{tabular}{|p{.465\textwidth}|p{.465\textwidth}|}
\hline
\textbf{Vorteile} & \textbf{Herausforderungen}\\
\hline
@ -114,7 +114,8 @@
\item benötigt kein Modell für die Aktionsauswahl
\end{itemize} &
\begin{itemize}
\item Benötigt meist eine Simulation
\item Funktioniert es auch ohne Simulation?
(bisher ist das Reinforcement Learning vor allem in simulierten Umgebungen angewendet worden (z.B. Spiele))
\item Wie geht man mit großen Zustandsräumen um?
\end{itemize}\\
\hline