Bayesian Learning (bis Bayesian Regression) hinzugefügt.

2022-02-14 21:22:17 +01:00 · 2022-02-14 21:22:17 +01:00 · e555dff40b
commit e555dff40b
parent 5816431351
7 changed files with 145 additions and 9 deletions
--- a/Glossary.tex
+++ b/Glossary.tex
@ -1,4 +1,4 @@
-%%
+%
 % all references for the glossary as well as the abbreviation list and nomenclature
 %%
 % add glossary for nomenclature
@ -129,6 +129,7 @@
 \newnom{kernel_vector}{Kernel Vector}{\bm{k}}{}
 \newnom{margin}{Margin}{\rho}{}
 \newnom{slack-variable}{Slack-Variable}{\xi_i}{}
+\newnom{parameter_vector}{Parameter Vector}{\bm{\theta}}{}
 \shorthandoff{"}

 \makeglossaries
--- a/ML_Zusammenfassung.tex
+++ b/ML_Zusammenfassung.tex
@ -37,7 +37,7 @@
    \input{chapters/Mathematische_Grundlagen/Probability_Theory.tex}
    \input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex}
    \input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex}
-    \input{chapters/Mathematische_Grundlagen/Constraint Optimization.tex}
+    \input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex}

    \part{Classical Supervised Learning}
    \label{part:Classical Supervised Learning}
@ -56,7 +56,8 @@

    \part{Bayesian Learning}
    \label{part:Bayesian Learning}
-    \input{chapters/Bayesian_Learning/Bayesian_Linear_Regression_and_Gaussian_Processes.tex}
+    \input{chapters/Bayesian_Learning/Bayesian_Learning.tex}
+    \input{chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex}
    \clearpage

    \part{Neural Networks}
--- a/chapters/Bayesian_Learning/Bayesian_Learning.tex
+++ b/chapters/Bayesian_Learning/Bayesian_Learning.tex
@ -0,0 +1,136 @@
+\chapter{Bayesian Learning**}%
+\label{cha:Bayesian Learning}
+Die meisten bisher behandelten Algorithmen geben auf Basis der gegebenen Eingaben ein einzelnes Modell (den \nomf{parameter_vector}) zurück.
+Wie allerdings bereits gezeigt wurde,
+sind die Daten störungsbehaftet.
+
+In \cref{sec:Random Forests} wurde gezeigt,
+dass die Mischung mehrerer ähnlicher Modelle zu einer besseren Vorhersage führt.
+Aus diesem Grund wird im Bayesian Learning versucht mehrere Modelle und die zugehörige Wahrscheinlichkeit für ihre Richtigkeit auf Basis der gegebenen Daten zu erstellen.
+
+Um die Wahrscheinlichkeit für die Richtigkeit eines \nomf{parameter_vector} zu bestimmen,
+kann die Regel von Bayes (\cref{sub:Bayes Rule}) verwendet werden:
+\begin{equation} \label{eq:bayesian_learning:bayes_theorem}
+    \underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}} 
+    = \frac{\overbrace{p(\mathcal D|\nomeq{parameter_vector})}^{\text{data likelihood}}\overbrace{p(\nomeq{parameter_vector})}^{\text{prior}}}{\underbrace{p(\mathcal D)}_{\text{evidence}}}
+\end{equation}
+Hierbei haben die einzelnen Teile folgende Eigenschaften:
+\begin{itemize}
+    \item Posterior: Wahrscheinlichkeit für die Richtigkeit von \nomf{parameter_vector} auf Basis der gegebenen Daten
+    \item Likelihood: Wahrscheinlichkeitswerte der Daten auf Basis eines gegebenen \nomf{parameter_vector}
+    \item Prior: Vermutete Richtigkeit von \nomf{parameter_vector}
+    \item Evidence: lediglich ein Normalisierungsfaktor, der für den Modellvergleich benötigt wird (\cref{Model Comparison})
+\end{itemize}
+Die Vorhersage für einen neuen Datenpunkt $\bm x^*$ erfolgt auf Basis folgender Formel:
+\begin{equation} \label{eq:bayesian_learning:predictive_distribution}
+    \underbrace{p(\bm y^*|\bm x^*,\mathcal D)}_{\text{marginal likelihood}}
+    = \int \underbrace{p(\bm y^*|\bm x^*,\nomeq{parameter_vector})}_{\text{likelihood}}\underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}} d\nomeq{parameter_vector}
+\end{equation}
+$p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ wird hierbei als marginal likelihood bezeichnet,
+da \nomsym{parameter_vector} durch das Integral marginalisiert wird.
+Daher ist $p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ nur noch von den gegebenen Daten $\mathcal D$ abhängig.
+
+\section{Example: Gaussian Distribution}%
+\label{sec:Example: Gaussian Distribution}
+Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
+kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
+\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
+    p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
+    =\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
+\end{equation}
+Hieraus ergibt sich für einen ganzen Datensatz $\bm X$:
+\begin{equation} \label{eq:gaussian_distribution_dataset}
+    p(\bm X|\nomeq{mean},\sigma)=\prod_i p(x_i|\nomeq{mean},\sigma) = \frac{1}{(2\pi\nomeq{variance})^{\frac{N}{2}}} \exp\left\{ -\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} \right\}
+\end{equation}
+Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden:
+\begin{itemize}
+    \item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
+                = \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
+                ($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$))
+    \item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$
+\end{itemize}
+Da wir nun sowohl die Likelihood als auch die Posterior Funktion zur Verfügung haben,
+lässt sich die Marginal Likelihood errechnen:
+\begin{align} \label{eq:gaussian_distribution_marginal_likelihood}
+    \underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\
+    &= \int \mathcal N(x^*|\nomeq{mean},\sigma)\mathcal N(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\
+    &= \mathcal N(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2)
+\end{align}
+Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch:
+\begin{itemize}
+    \item $\nomeq{mean}_{x^*} = \nomeq{mean}_N$
+    \item $\sigma_{x^*}^2 = \sigma_N^2 + \nomeq{variance}$
+\end{itemize}
+
+\subsection{Completing the square}%
+\label{sub:Completing the square}
+Unter der Annahme,
+dass die \nomf{variance} bekannt ist,
+ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}:
+\begin{equation}
+    \label{eq:gaussian_distribution_prior}
+    p(\nomeq{mean}) = \mathcal N(\nomeq{mean}|\nomeq{mean}_0,\sigma_0) 
+        = \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\}
+\end{equation}
+Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen.
+Hieraus ergibt sich die a-posteriori Abschätzung
+\begin{align} \label{eq:gaussian_distribution_posterior}
+    p(\nomeq{mean},\bm X) &= \frac{p(\bm X|\nomeq{mean})p(\nomeq{mean})}{p(\bm X)}\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})\\
+    p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})
+        \varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}
+\end{align}
+Der Prozess,
+mithilfe dessen diese Gleichung aufgelöst werden kann wird als \say{Completing the square} bezeichnet.
+Der erste Schritt ist es die Funktion in die kanonische Schreibweise zu überführen
+\begin{equation} \label{eq:canonical_form}
+    \exp(- \frac{1}{2}a\mu^2 + b\mu + \text{const})
+\end{equation}
+\begin{align} \label{eq:gaussian_distribution_canonical_form}
+    p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})
+        \varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}\\
+                          &= \exp\left\{-\frac{1}{2}\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right) \nomeq{mean}^2
+                          + \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right) \nomeq{mean} + \text{const}\right\}\\
+    \Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\
+                &b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right)
+\end{align}
+Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \mathcal N(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass:
+\begin{itemize}
+    \item $\nomeq{mean}_N = a^{-1}b$
+    \item $\sigma_N^2 = a^{-1}$
+\end{itemize}
+Daher ergibt sich:
+\begin{itemize}
+    \item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
+                = \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
+                ($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$))
+    \item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$
+\end{itemize}
+
+\subsection{Conjugate Priors}%
+\label{sub:Conjugate Priors}
+Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\mathcal N)$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}.
+Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich,
+da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden.
+
+\section{Maximum a-posteriori solution}%
+\label{sec:Maximum a-posteriori solution}
+Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachung des Bayesian Learning Verfahrens.
+\begin{enumerate}
+    \item den \noms{parameter_vector} $\nomeq{parameter_vector}_{\text{MAP}}$ finden, für den der Posterior maximal ist
+        (Die Unsicherheit in \nomsym{parameter_vector} wird ignoriert):
+        \begin{align} \label{eq:maximum_a-posteriori_solution_parameter_vector}
+            \nomeq{parameter_vector}_{\text{MAP}} 
+            &= \argmax_{\nomeq{parameter_vector}} p(\nomeq{parameter_vector}|\mathcal D) \\
+            &= \argmax_{\nomeq{parameter_vector}} p(\mathcal D|\nomeq{parameter_vector})p(\nomeq{parameter_vector})\\
+            &=\argmax_{\nomeq{parameter_vector}} \log p(\mathcal D|\nomeq{parameter_vector}) + \log p(\nomeq{parameter_vector})
+        \end{align}
+    \item $\nomeq{parameter_vector}_{\text{MAP}}$ für die Vorhersage nutzen:
+        \begin{equation} \label{eq:maximum_a-posteriori_solution_prediction}
+            p(\bm x^*|\mathcal D)\approx p(\bm x^*|\nomeq{parameter_vector}_{\text{MAP}}) 
+        \end{equation}
+\end{enumerate}
+
+\subsection{Anwendungsbeispiel: Regression}%
+\label{sub:MAP:Anwendungsbeispiel: Regression}
+{\color{red} siehe Vorlesung 07 Folien 20-22}
+
--- a/chapters/Bayesian_Learning/Bayesian_Linear_Regression_and_Gaussian_Processes.tex
+++ b/chapters/Bayesian_Learning/Bayesian_Linear_Regression_and_Gaussian_Processes.tex
@ -1,3 +0,0 @@
-\chapter{Bayesian Linear Regression and Gaussian Processes}%
-\label{cha:Bayesian Linear Regression and Gaussian Processes}
-
--- a/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex
+++ b/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex
@ -0,0 +1,4 @@
+\chapter{Bayesian Regression Algorithms}%
+\label{cha:Bayesian Regression Algorithms}
+
+
--- a/chapters/Mathematische_Grundlagen/Constraint_Optimization.tex
+++ b/chapters/Mathematische_Grundlagen/Constraint_Optimization.tex
--- a/parts/ExamplePart.tex
+++ b/parts/ExamplePart.tex
@ -1,3 +0,0 @@
-\part{Example Part}
-
-\input{chapters/ExamplePart/ExampleChapter.tex}