reinforcement learning abgeschlossen
This commit is contained in:
parent
b06edb452c
commit
101bfba31f
@ -96,9 +96,43 @@
|
||||
Beim \ac{TD} Learning lernt der Agent bereits aus unvollständigen Episoden.
|
||||
Man sagt: \say{learning a guess from a guess}
|
||||
|
||||
\paragraph{Q-Learning}
|
||||
Wenn man die Bellman-Funktion für Action-Value-Funktionen (\ref{rl: value}) einsetzt erhält man:
|
||||
$$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
|
||||
Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
|
||||
$$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
|
||||
\includegraphics[width =.8\textwidth]{q-learning.png}
|
||||
\section{Q-Learning}
|
||||
\label{q-learning}
|
||||
Wenn man die Bellman-Funktion für Action-Value-Funktionen (\ref{rl: value}) einsetzt erhält man:
|
||||
$$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
|
||||
Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
|
||||
$$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
|
||||
\includegraphics[width =.8\textwidth]{q-learning.png}
|
||||
Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.
|
||||
\begin{tabular}{|p{.465\textwidth}|p{.465\textwidth|}}
|
||||
\hline
|
||||
\textbf{Vorteile} & \textbf{Herausforderungen}\\
|
||||
\hline
|
||||
\begin{itemize}
|
||||
\item lernt nach jedem Schritt
|
||||
\item lernt ohne Erreichen eines Zielzustands
|
||||
\item benötigt kein Modell für die Aktionsauswahl
|
||||
\end{itemize} &
|
||||
\begin{itemize}
|
||||
\item Benötigt meist eine Simulation
|
||||
\item Wie geht man mit großen Zustandsräumen um?
|
||||
\end{itemize}\\
|
||||
\hline
|
||||
\end{tabular}
|
||||
|
||||
\subsection{Exploration vs Exploitation}
|
||||
\label{exploration vs exploitation}
|
||||
Nach zufälliger Durchsuchung gelangt der Agent irgendwann durch Zufall zu einem positiven Ergenis.
|
||||
Nun steht er allerdings vor einem Dilemma.
|
||||
Soll er den Weg mit bekannt hohem Nutzen (\ref{rl: value}) gehen (Exploitation) oder noch nicht ausprobierte Aktionen versuchen (Exploration)?
|
||||
Der Vorteil der Exploration ist, dass ein besserer Weg als der bereits bekannte gefunden werden kann,
|
||||
wohingegen die Exploitation den Vorteil eines sicheren Rewards (\ref{rl}) hat.
|
||||
|
||||
\subsubsection{$\epsilon$-greedy}
|
||||
\label{epsilon-greedy}
|
||||
\begin{wrapfigure}{h}{.5\textwidth}
|
||||
\vspace{-15mm}
|
||||
\includegraphics[width = .5\textwidth]{epsilon-greedy.png}
|
||||
\end{wrapfigure}
|
||||
Ein Algorithmus, der einen Mittelweg zwischen beiden Lösungen darstellt ist der $\epsilon$-greedy-Algorithmus.
|
||||
Hierbei wird mit einer von $\epsilon$ abhängigen Wahrscheinlichkeiten ein zufälliger Weg anstatt des besten bekannten Weges gewählt.\\
|
BIN
images/epsilon-greedy.png
Normal file
BIN
images/epsilon-greedy.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 24 KiB |
Loading…
x
Reference in New Issue
Block a user