fixed formatation
This commit is contained in:
parent
101bfba31f
commit
d0bc5550b7
@ -102,9 +102,9 @@
|
||||
$$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
|
||||
Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
|
||||
$$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
|
||||
\includegraphics[width =.8\textwidth]{q-learning.png}
|
||||
Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.
|
||||
\begin{tabular}{|p{.465\textwidth}|p{.465\textwidth|}}
|
||||
\includegraphics[width =.8\textwidth]{q-learning.png} \\
|
||||
Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.\\
|
||||
\begin{tabular}{|p{.465\textwidth}|p{.465\textwidth}|}
|
||||
\hline
|
||||
\textbf{Vorteile} & \textbf{Herausforderungen}\\
|
||||
\hline
|
||||
@ -114,7 +114,8 @@
|
||||
\item benötigt kein Modell für die Aktionsauswahl
|
||||
\end{itemize} &
|
||||
\begin{itemize}
|
||||
\item Benötigt meist eine Simulation
|
||||
\item Funktioniert es auch ohne Simulation?
|
||||
(bisher ist das Reinforcement Learning vor allem in simulierten Umgebungen angewendet worden (z.B. Spiele))
|
||||
\item Wie geht man mit großen Zustandsräumen um?
|
||||
\end{itemize}\\
|
||||
\hline
|
||||
|
Loading…
x
Reference in New Issue
Block a user