forked from TH_General/Template_Summary
140 lines
9.3 KiB
TeX
140 lines
9.3 KiB
TeX
\chapter{Bayesian Learning}%
|
|
\label{cha:Bayesian Learning}
|
|
Die meisten bisher behandelten Algorithmen geben auf Basis der gegebenen Eingaben ein einzelnes Modell (den \nomf{parameter_vector}) zurück.
|
|
Wie allerdings bereits gezeigt wurde,
|
|
sind die Daten störungsbehaftet.
|
|
|
|
In \cref{sec:Random Forests} wurde gezeigt,
|
|
dass die Mischung mehrerer ähnlicher Modelle zu einer besseren Vorhersage führt.
|
|
Aus diesem Grund wird im Bayesian Learning versucht mehrere Modelle und die zugehörige Wahrscheinlichkeit für ihre Richtigkeit auf Basis der gegebenen Daten zu erstellen.
|
|
|
|
Um die Wahrscheinlichkeit für die Richtigkeit eines \nomf{parameter_vector} zu bestimmen,
|
|
kann die Regel von Bayes (\cref{sub:Bayes Rule}) verwendet werden:
|
|
\begin{equation} \label{eq:bayesian_learning:bayes_theorem}
|
|
\underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}}
|
|
= \frac{\overbrace{p(\mathcal D|\nomeq{parameter_vector})}^{\text{data likelihood}}\overbrace{p(\nomeq{parameter_vector})}^{\text{prior}}}{\underbrace{p(\mathcal D)}_{\text{evidence}}}
|
|
\end{equation}
|
|
Hierbei haben die einzelnen Teile folgende Eigenschaften:
|
|
\begin{itemize}
|
|
\item Posterior: Wahrscheinlichkeit für die Richtigkeit von \nomf{parameter_vector} auf Basis der gegebenen Daten
|
|
\item Likelihood: Wahrscheinlichkeitswerte der Daten auf Basis eines gegebenen \nomf{parameter_vector}
|
|
\item Prior: Vermutete Richtigkeit von \nomf{parameter_vector}
|
|
\item Evidence: lediglich ein Normalisierungsfaktor, der für den Modellvergleich benötigt wird (\cref{cha:Model Selection})
|
|
\end{itemize}
|
|
Die Vorhersage für einen neuen Datenpunkt $\bm x^*$ erfolgt auf Basis folgender Formel:
|
|
\begin{equation} \label{eq:bayesian_learning:predictive_distribution}
|
|
\underbrace{p(\bm y^*|\bm x^*,\mathcal D)}_{\text{marginal likelihood}}
|
|
= \int \underbrace{p(\bm y^*|\bm x^*,\nomeq{parameter_vector})}_{\text{likelihood}}\underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}} d\nomeq{parameter_vector}
|
|
\end{equation}
|
|
$p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ wird hierbei als marginal likelihood bezeichnet,
|
|
da \nomsym{parameter_vector} durch das Integral marginalisiert wird.
|
|
Daher ist $p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ nur noch von den gegebenen Daten $\mathcal D$ abhängig.
|
|
|
|
\section{Example: Gaussian Distribution}%
|
|
\label{sec:Example: Gaussian Distribution}
|
|
Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
|
|
kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
|
|
\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
|
|
p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
|
|
=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
|
\end{equation}
|
|
Hieraus ergibt sich für einen ganzen Datensatz $\bm X$:
|
|
\begin{equation} \label{eq:gaussian_distribution_dataset}
|
|
p(\bm X|\nomeq{mean},\sigma)=\prod_i p(x_i|\nomeq{mean},\sigma) = \frac{1}{(2\pi\nomeq{variance})^{\frac{N}{2}}} \exp\left\{ -\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} \right\}
|
|
\end{equation}
|
|
Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden:
|
|
\begin{itemize}
|
|
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
|
|
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
|
|
($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$))
|
|
\item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$
|
|
\end{itemize}
|
|
Da wir nun sowohl die Likelihood als auch die Posterior Funktion zur Verfügung haben,
|
|
lässt sich die Marginal Likelihood errechnen:
|
|
\begin{align} \label{eq:gaussian_distribution_marginal_likelihood}
|
|
\underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\
|
|
&= \int \nomeq{gaussian_distribution}(x^*|\nomeq{mean},\sigma)\nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\
|
|
&= \nomeq{gaussian_distribution}(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2)
|
|
\end{align}
|
|
Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch:
|
|
\begin{itemize}
|
|
\item $\nomeq{mean}_{x^*} = \nomeq{mean}_N$
|
|
\item $\sigma_{x^*}^2 = \sigma_N^2 + \nomeq{variance}$
|
|
\end{itemize}
|
|
|
|
\subsection{Completing the square}%
|
|
\label{sub:Completing the square}
|
|
Unter der Annahme,
|
|
dass die \nomf{variance} bekannt ist,
|
|
ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}:
|
|
\begin{equation}
|
|
\label{eq:gaussian_distribution_prior}
|
|
p(\nomeq{mean}) = \nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_0,\sigma_0)
|
|
= \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\}
|
|
\end{equation}
|
|
Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen.
|
|
Hieraus ergibt sich die a-posteriori Abschätzung
|
|
\begin{align} \label{eq:gaussian_distribution_posterior}
|
|
p(\nomeq{mean},\bm X) &= \frac{p(\bm X|\nomeq{mean})p(\nomeq{mean})}{p(\bm X)}\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})\\
|
|
p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})
|
|
\varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}
|
|
\end{align}
|
|
Der Prozess,
|
|
mithilfe dessen diese Gleichung aufgelöst werden kann wird als \say{Completing the square} bezeichnet.
|
|
Der erste Schritt ist es die Funktion in die kanonische Schreibweise zu überführen
|
|
\begin{equation} \label{eq:canonical_form}
|
|
\exp(- \frac{1}{2}a\mu^2 + b\mu + \text{const})
|
|
\end{equation}
|
|
\begin{align} \label{eq:gaussian_distribution_canonical_form}
|
|
p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})
|
|
\varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}\\
|
|
&= \exp\left\{-\frac{1}{2}\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right) \nomeq{mean}^2
|
|
+ \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right) \nomeq{mean} + \text{const}\right\}\\
|
|
\Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\
|
|
&b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right)
|
|
\end{align}
|
|
Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \nomeq{gaussian_distribution}(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass:
|
|
\begin{itemize}
|
|
\item $\nomeq{mean}_N = a^{-1}b$
|
|
\item $\sigma_N^2 = a^{-1}$
|
|
\end{itemize}
|
|
Daher ergibt sich:
|
|
\begin{itemize}
|
|
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
|
|
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
|
|
($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$))
|
|
\item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$
|
|
\end{itemize}
|
|
|
|
\subsection{Conjugate Priors}%
|
|
\label{sub:Conjugate Priors}
|
|
Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\nomeq{gaussian_distribution})$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}.
|
|
Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich,
|
|
da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden.
|
|
|
|
\section{Maximum a-posteriori solution}%
|
|
\label{sec:Maximum a-posteriori solution}
|
|
Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachung des Bayesian Learning Verfahrens.
|
|
\begin{enumerate}
|
|
\item den \noms{parameter_vector} $\nomeq{parameter_vector}_{\text{MAP}}$ finden, für den der Posterior maximal ist
|
|
(Die Unsicherheit in \nomsym{parameter_vector} wird ignoriert):
|
|
\begin{align} \label{eq:maximum_a-posteriori_solution_parameter_vector}
|
|
\nomeq{parameter_vector}_{\text{MAP}}
|
|
&= \argmax_{\nomeq{parameter_vector}} p(\nomeq{parameter_vector}|\mathcal D) \\
|
|
&= \argmax_{\nomeq{parameter_vector}} p(\mathcal D|\nomeq{parameter_vector})p(\nomeq{parameter_vector})\\
|
|
&=\argmax_{\nomeq{parameter_vector}} \log p(\mathcal D|\nomeq{parameter_vector}) + \log p(\nomeq{parameter_vector})
|
|
\end{align}
|
|
\item $\nomeq{parameter_vector}_{\text{MAP}}$ für die Vorhersage nutzen:
|
|
\begin{equation} \label{eq:maximum_a-posteriori_solution_prediction}
|
|
p(\bm x^*|\mathcal D)\approx p(\bm x^*|\nomeq{parameter_vector}_{\text{MAP}})
|
|
\end{equation}
|
|
\end{enumerate}
|
|
|
|
\subsection{Anwendungsbeispiel: Regression}%
|
|
\label{sub:MAP:Anwendungsbeispiel: Regression}
|
|
Läuft am Ende auf \nameref{sub:Ridge Regression} hinaus.
|
|
Soll den Zusammenhang beider Methoden zeigen.
|
|
{\color{red} siehe Vorlesung 07 Folien 20-22}
|
|
|
|
|