diff --git a/chapters/Maschinelles Lernen/Reinforcement Learning.tex b/chapters/Maschinelles Lernen/Reinforcement Learning.tex index d7b5b44..6071e84 100644 --- a/chapters/Maschinelles Lernen/Reinforcement Learning.tex +++ b/chapters/Maschinelles Lernen/Reinforcement Learning.tex @@ -96,9 +96,43 @@ Beim \ac{TD} Learning lernt der Agent bereits aus unvollständigen Episoden. Man sagt: \say{learning a guess from a guess} - \paragraph{Q-Learning} - Wenn man die Bellman-Funktion für Action-Value-Funktionen (\ref{rl: value}) einsetzt erhält man: - $$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$ - Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning - $$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$ - \includegraphics[width =.8\textwidth]{q-learning.png} \ No newline at end of file + \section{Q-Learning} + \label{q-learning} + Wenn man die Bellman-Funktion für Action-Value-Funktionen (\ref{rl: value}) einsetzt erhält man: + $$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$ + Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning + $$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$ + \includegraphics[width =.8\textwidth]{q-learning.png} + Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet. + \begin{tabular}{|p{.465\textwidth}|p{.465\textwidth|}} + \hline + \textbf{Vorteile} & \textbf{Herausforderungen}\\ + \hline + \begin{itemize} + \item lernt nach jedem Schritt + \item lernt ohne Erreichen eines Zielzustands + \item benötigt kein Modell für die Aktionsauswahl + \end{itemize} & + \begin{itemize} + \item Benötigt meist eine Simulation + \item Wie geht man mit großen Zustandsräumen um? + \end{itemize}\\ + \hline + \end{tabular} + + \subsection{Exploration vs Exploitation} + \label{exploration vs exploitation} + Nach zufälliger Durchsuchung gelangt der Agent irgendwann durch Zufall zu einem positiven Ergenis. + Nun steht er allerdings vor einem Dilemma. + Soll er den Weg mit bekannt hohem Nutzen (\ref{rl: value}) gehen (Exploitation) oder noch nicht ausprobierte Aktionen versuchen (Exploration)? + Der Vorteil der Exploration ist, dass ein besserer Weg als der bereits bekannte gefunden werden kann, + wohingegen die Exploitation den Vorteil eines sicheren Rewards (\ref{rl}) hat. + + \subsubsection{$\epsilon$-greedy} + \label{epsilon-greedy} + \begin{wrapfigure}{h}{.5\textwidth} + \vspace{-15mm} + \includegraphics[width = .5\textwidth]{epsilon-greedy.png} + \end{wrapfigure} + Ein Algorithmus, der einen Mittelweg zwischen beiden Lösungen darstellt ist der $\epsilon$-greedy-Algorithmus. + Hierbei wird mit einer von $\epsilon$ abhängigen Wahrscheinlichkeiten ein zufälliger Weg anstatt des besten bekannten Weges gewählt.\\ \ No newline at end of file diff --git a/images/epsilon-greedy.png b/images/epsilon-greedy.png new file mode 100644 index 0000000..13929ee Binary files /dev/null and b/images/epsilon-greedy.png differ