reinforcement learning abgeschlossen

This commit is contained in:
paul-loedige 2021-02-04 10:55:21 +01:00
parent b06edb452c
commit 101bfba31f
2 changed files with 40 additions and 6 deletions

View File

@ -96,9 +96,43 @@
Beim \ac{TD} Learning lernt der Agent bereits aus unvollständigen Episoden.
Man sagt: \say{learning a guess from a guess}
\paragraph{Q-Learning}
Wenn man die Bellman-Funktion für Action-Value-Funktionen (\ref{rl: value}) einsetzt erhält man:
$$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
$$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
\includegraphics[width =.8\textwidth]{q-learning.png}
\section{Q-Learning}
\label{q-learning}
Wenn man die Bellman-Funktion für Action-Value-Funktionen (\ref{rl: value}) einsetzt erhält man:
$$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
$$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
\includegraphics[width =.8\textwidth]{q-learning.png}
Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.
\begin{tabular}{|p{.465\textwidth}|p{.465\textwidth|}}
\hline
\textbf{Vorteile} & \textbf{Herausforderungen}\\
\hline
\begin{itemize}
\item lernt nach jedem Schritt
\item lernt ohne Erreichen eines Zielzustands
\item benötigt kein Modell für die Aktionsauswahl
\end{itemize} &
\begin{itemize}
\item Benötigt meist eine Simulation
\item Wie geht man mit großen Zustandsräumen um?
\end{itemize}\\
\hline
\end{tabular}
\subsection{Exploration vs Exploitation}
\label{exploration vs exploitation}
Nach zufälliger Durchsuchung gelangt der Agent irgendwann durch Zufall zu einem positiven Ergenis.
Nun steht er allerdings vor einem Dilemma.
Soll er den Weg mit bekannt hohem Nutzen (\ref{rl: value}) gehen (Exploitation) oder noch nicht ausprobierte Aktionen versuchen (Exploration)?
Der Vorteil der Exploration ist, dass ein besserer Weg als der bereits bekannte gefunden werden kann,
wohingegen die Exploitation den Vorteil eines sicheren Rewards (\ref{rl}) hat.
\subsubsection{$\epsilon$-greedy}
\label{epsilon-greedy}
\begin{wrapfigure}{h}{.5\textwidth}
\vspace{-15mm}
\includegraphics[width = .5\textwidth]{epsilon-greedy.png}
\end{wrapfigure}
Ein Algorithmus, der einen Mittelweg zwischen beiden Lösungen darstellt ist der $\epsilon$-greedy-Algorithmus.
Hierbei wird mit einer von $\epsilon$ abhängigen Wahrscheinlichkeiten ein zufälliger Weg anstatt des besten bekannten Weges gewählt.\\

BIN
images/epsilon-greedy.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 24 KiB