reinforcement learning abgeschlossen

2021-02-04 10:55:21 +01:00 · 2021-02-04 10:55:21 +01:00 · 101bfba31f
commit 101bfba31f
parent b06edb452c
2 changed files with 40 additions and 6 deletions
--- a/chapters/Maschinelles
+++ b/chapters/Maschinelles
@ -96,9 +96,43 @@
            Beim \ac{TD} Learning lernt der Agent bereits aus unvollständigen Episoden.
            Man sagt: \say{learning a guess from a guess}

-            \paragraph{Q-Learning}
-                Wenn man die Bellman-Funktion für Action-Value-Funktionen (\ref{rl: value}) einsetzt erhält man:
-                $$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
-                Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
-                $$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
-                \includegraphics[width =.8\textwidth]{q-learning.png} 
+        \section{Q-Learning}
+        \label{q-learning}
+            Wenn man die Bellman-Funktion für Action-Value-Funktionen (\ref{rl: value}) einsetzt erhält man:
+            $$Q(s,a)=\mathbb{E}\left[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})\mid S_t=s, A_t=a\right]$$
+            Hieraus ergibt sich die Aktualisierungsregel für das Q-Learning
+            $$Q(s_t,a_t)\gets \underbrace{s_t,a_t}_{\text{old value}} + \underbrace{a}_{\text{learning rate}} \cdot \left(\overbrace{\underbrace{r_{t+1}}_{\text{reward}} + \underbrace{\gamma}_{\text{discount facotr}}\cdot\underbrace{\max_aQ(s_{t+1},a)}_{\text{estimate of optimal future value}}}^{\text{learned value}}-\underbrace{Q(s_t,a_t)_{\text{old value}}}\right)$$
+            \includegraphics[width =.8\textwidth]{q-learning.png} 
+            Für die Auswahl des Pfades wird häufig der $\epsilon$-greedy (\ref{epsilon-greedy}) Algorithmus verwendet.
+            \begin{tabular}{|p{.465\textwidth}|p{.465\textwidth|}}
+                \hline
+                \textbf{Vorteile} & \textbf{Herausforderungen}\\
+                \hline
+                \begin{itemize}
+                    \item lernt nach jedem Schritt
+                    \item lernt ohne Erreichen eines Zielzustands
+                    \item benötigt kein Modell für die Aktionsauswahl
+                \end{itemize} &
+                \begin{itemize}
+                    \item Benötigt meist eine Simulation
+                    \item Wie geht man mit großen Zustandsräumen um?
+                \end{itemize}\\
+                \hline
+            \end{tabular}
+
+        \subsection{Exploration vs Exploitation}
+        \label{exploration vs exploitation}
+            Nach zufälliger Durchsuchung gelangt der Agent irgendwann durch Zufall zu einem positiven Ergenis.
+            Nun steht er allerdings vor einem Dilemma.
+            Soll er den Weg mit bekannt hohem Nutzen (\ref{rl: value}) gehen (Exploitation) oder noch nicht ausprobierte Aktionen versuchen (Exploration)?
+            Der Vorteil der Exploration ist, dass ein besserer Weg als der bereits bekannte gefunden werden kann,
+            wohingegen die Exploitation den Vorteil eines sicheren Rewards (\ref{rl}) hat.
+
+            \subsubsection{$\epsilon$-greedy}
+            \label{epsilon-greedy}
+                \begin{wrapfigure}{h}{.5\textwidth}
+                    \vspace{-15mm}
+                    \includegraphics[width = .5\textwidth]{epsilon-greedy.png}
+                \end{wrapfigure}
+                Ein Algorithmus, der einen Mittelweg zwischen beiden Lösungen darstellt ist der $\epsilon$-greedy-Algorithmus.
+                Hierbei wird mit einer von $\epsilon$ abhängigen Wahrscheinlichkeiten ein zufälliger Weg anstatt des besten bekannten Weges gewählt.\\
--- a/images/epsilon-greedy.png
+++ b/images/epsilon-greedy.png