140 lines
9.3 KiB
TeX

\chapter{Bayesian Learning}%
\label{cha:Bayesian Learning}
Die meisten bisher behandelten Algorithmen geben auf Basis der gegebenen Eingaben ein einzelnes Modell (den \nomf{parameter_vector}) zurück.
Wie allerdings bereits gezeigt wurde,
sind die Daten störungsbehaftet.
In \cref{sec:Random Forests} wurde gezeigt,
dass die Mischung mehrerer ähnlicher Modelle zu einer besseren Vorhersage führt.
Aus diesem Grund wird im Bayesian Learning versucht mehrere Modelle und die zugehörige Wahrscheinlichkeit für ihre Richtigkeit auf Basis der gegebenen Daten zu erstellen.
Um die Wahrscheinlichkeit für die Richtigkeit eines \nomf{parameter_vector} zu bestimmen,
kann die Regel von Bayes (\cref{sub:Bayes Rule}) verwendet werden:
\begin{equation} \label{eq:bayesian_learning:bayes_theorem}
\underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}}
= \frac{\overbrace{p(\mathcal D|\nomeq{parameter_vector})}^{\text{data likelihood}}\overbrace{p(\nomeq{parameter_vector})}^{\text{prior}}}{\underbrace{p(\mathcal D)}_{\text{evidence}}}
\end{equation}
Hierbei haben die einzelnen Teile folgende Eigenschaften:
\begin{itemize}
\item Posterior: Wahrscheinlichkeit für die Richtigkeit von \nomf{parameter_vector} auf Basis der gegebenen Daten
\item Likelihood: Wahrscheinlichkeitswerte der Daten auf Basis eines gegebenen \nomf{parameter_vector}
\item Prior: Vermutete Richtigkeit von \nomf{parameter_vector}
\item Evidence: lediglich ein Normalisierungsfaktor, der für den Modellvergleich benötigt wird (\cref{cha:Model Selection})
\end{itemize}
Die Vorhersage für einen neuen Datenpunkt $\bm x^*$ erfolgt auf Basis folgender Formel:
\begin{equation} \label{eq:bayesian_learning:predictive_distribution}
\underbrace{p(\bm y^*|\bm x^*,\mathcal D)}_{\text{marginal likelihood}}
= \int \underbrace{p(\bm y^*|\bm x^*,\nomeq{parameter_vector})}_{\text{likelihood}}\underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}} d\nomeq{parameter_vector}
\end{equation}
$p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ wird hierbei als marginal likelihood bezeichnet,
da \nomsym{parameter_vector} durch das Integral marginalisiert wird.
Daher ist $p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ nur noch von den gegebenen Daten $\mathcal D$ abhängig.
\section{Example: Gaussian Distribution}%
\label{sec:Example: Gaussian Distribution}
Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
\end{equation}
Hieraus ergibt sich für einen ganzen Datensatz $\bm X$:
\begin{equation} \label{eq:gaussian_distribution_dataset}
p(\bm X|\nomeq{mean},\sigma)=\prod_i p(x_i|\nomeq{mean},\sigma) = \frac{1}{(2\pi\nomeq{variance})^{\frac{N}{2}}} \exp\left\{ -\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} \right\}
\end{equation}
Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden:
\begin{itemize}
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$))
\item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$
\end{itemize}
Da wir nun sowohl die Likelihood als auch die Posterior Funktion zur Verfügung haben,
lässt sich die Marginal Likelihood errechnen:
\begin{align} \label{eq:gaussian_distribution_marginal_likelihood}
\underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\
&= \int \nomeq{gaussian_distribution}(x^*|\nomeq{mean},\sigma)\nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\
&= \nomeq{gaussian_distribution}(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2)
\end{align}
Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch:
\begin{itemize}
\item $\nomeq{mean}_{x^*} = \nomeq{mean}_N$
\item $\sigma_{x^*}^2 = \sigma_N^2 + \nomeq{variance}$
\end{itemize}
\subsection{Completing the square}%
\label{sub:Completing the square}
Unter der Annahme,
dass die \nomf{variance} bekannt ist,
ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}:
\begin{equation}
\label{eq:gaussian_distribution_prior}
p(\nomeq{mean}) = \nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_0,\sigma_0)
= \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\}
\end{equation}
Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen.
Hieraus ergibt sich die a-posteriori Abschätzung
\begin{align} \label{eq:gaussian_distribution_posterior}
p(\nomeq{mean},\bm X) &= \frac{p(\bm X|\nomeq{mean})p(\nomeq{mean})}{p(\bm X)}\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})\\
p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})
\varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}
\end{align}
Der Prozess,
mithilfe dessen diese Gleichung aufgelöst werden kann wird als \say{Completing the square} bezeichnet.
Der erste Schritt ist es die Funktion in die kanonische Schreibweise zu überführen
\begin{equation} \label{eq:canonical_form}
\exp(- \frac{1}{2}a\mu^2 + b\mu + \text{const})
\end{equation}
\begin{align} \label{eq:gaussian_distribution_canonical_form}
p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})
\varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}\\
&= \exp\left\{-\frac{1}{2}\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right) \nomeq{mean}^2
+ \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right) \nomeq{mean} + \text{const}\right\}\\
\Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\
&b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right)
\end{align}
Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \nomeq{gaussian_distribution}(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass:
\begin{itemize}
\item $\nomeq{mean}_N = a^{-1}b$
\item $\sigma_N^2 = a^{-1}$
\end{itemize}
Daher ergibt sich:
\begin{itemize}
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$))
\item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$
\end{itemize}
\subsection{Conjugate Priors}%
\label{sub:Conjugate Priors}
Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\nomeq{gaussian_distribution})$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}.
Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich,
da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden.
\section{Maximum a-posteriori solution}%
\label{sec:Maximum a-posteriori solution}
Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachung des Bayesian Learning Verfahrens.
\begin{enumerate}
\item den \noms{parameter_vector} $\nomeq{parameter_vector}_{\text{MAP}}$ finden, für den der Posterior maximal ist
(Die Unsicherheit in \nomsym{parameter_vector} wird ignoriert):
\begin{align} \label{eq:maximum_a-posteriori_solution_parameter_vector}
\nomeq{parameter_vector}_{\text{MAP}}
&= \argmax_{\nomeq{parameter_vector}} p(\nomeq{parameter_vector}|\mathcal D) \\
&= \argmax_{\nomeq{parameter_vector}} p(\mathcal D|\nomeq{parameter_vector})p(\nomeq{parameter_vector})\\
&=\argmax_{\nomeq{parameter_vector}} \log p(\mathcal D|\nomeq{parameter_vector}) + \log p(\nomeq{parameter_vector})
\end{align}
\item $\nomeq{parameter_vector}_{\text{MAP}}$ für die Vorhersage nutzen:
\begin{equation} \label{eq:maximum_a-posteriori_solution_prediction}
p(\bm x^*|\mathcal D)\approx p(\bm x^*|\nomeq{parameter_vector}_{\text{MAP}})
\end{equation}
\end{enumerate}
\subsection{Anwendungsbeispiel: Regression}%
\label{sub:MAP:Anwendungsbeispiel: Regression}
Läuft am Ende auf \nameref{sub:Ridge Regression} hinaus.
Soll den Zusammenhang beider Methoden zeigen.
{\color{red} siehe Vorlesung 07 Folien 20-22}