forked from TH_General/Template_Summary
Bayesian Learning (bis Bayesian Regression) hinzugefügt.
This commit is contained in:
parent
5816431351
commit
e555dff40b
@ -1,4 +1,4 @@
|
||||
%%
|
||||
%
|
||||
% all references for the glossary as well as the abbreviation list and nomenclature
|
||||
%%
|
||||
% add glossary for nomenclature
|
||||
@ -129,6 +129,7 @@
|
||||
\newnom{kernel_vector}{Kernel Vector}{\bm{k}}{}
|
||||
\newnom{margin}{Margin}{\rho}{}
|
||||
\newnom{slack-variable}{Slack-Variable}{\xi_i}{}
|
||||
\newnom{parameter_vector}{Parameter Vector}{\bm{\theta}}{}
|
||||
\shorthandoff{"}
|
||||
|
||||
\makeglossaries
|
||||
|
@ -37,7 +37,7 @@
|
||||
\input{chapters/Mathematische_Grundlagen/Probability_Theory.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Constraint Optimization.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex}
|
||||
|
||||
\part{Classical Supervised Learning}
|
||||
\label{part:Classical Supervised Learning}
|
||||
@ -56,7 +56,8 @@
|
||||
|
||||
\part{Bayesian Learning}
|
||||
\label{part:Bayesian Learning}
|
||||
\input{chapters/Bayesian_Learning/Bayesian_Linear_Regression_and_Gaussian_Processes.tex}
|
||||
\input{chapters/Bayesian_Learning/Bayesian_Learning.tex}
|
||||
\input{chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex}
|
||||
\clearpage
|
||||
|
||||
\part{Neural Networks}
|
||||
|
136
chapters/Bayesian_Learning/Bayesian_Learning.tex
Normal file
136
chapters/Bayesian_Learning/Bayesian_Learning.tex
Normal file
@ -0,0 +1,136 @@
|
||||
\chapter{Bayesian Learning**}%
|
||||
\label{cha:Bayesian Learning}
|
||||
Die meisten bisher behandelten Algorithmen geben auf Basis der gegebenen Eingaben ein einzelnes Modell (den \nomf{parameter_vector}) zurück.
|
||||
Wie allerdings bereits gezeigt wurde,
|
||||
sind die Daten störungsbehaftet.
|
||||
|
||||
In \cref{sec:Random Forests} wurde gezeigt,
|
||||
dass die Mischung mehrerer ähnlicher Modelle zu einer besseren Vorhersage führt.
|
||||
Aus diesem Grund wird im Bayesian Learning versucht mehrere Modelle und die zugehörige Wahrscheinlichkeit für ihre Richtigkeit auf Basis der gegebenen Daten zu erstellen.
|
||||
|
||||
Um die Wahrscheinlichkeit für die Richtigkeit eines \nomf{parameter_vector} zu bestimmen,
|
||||
kann die Regel von Bayes (\cref{sub:Bayes Rule}) verwendet werden:
|
||||
\begin{equation} \label{eq:bayesian_learning:bayes_theorem}
|
||||
\underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}}
|
||||
= \frac{\overbrace{p(\mathcal D|\nomeq{parameter_vector})}^{\text{data likelihood}}\overbrace{p(\nomeq{parameter_vector})}^{\text{prior}}}{\underbrace{p(\mathcal D)}_{\text{evidence}}}
|
||||
\end{equation}
|
||||
Hierbei haben die einzelnen Teile folgende Eigenschaften:
|
||||
\begin{itemize}
|
||||
\item Posterior: Wahrscheinlichkeit für die Richtigkeit von \nomf{parameter_vector} auf Basis der gegebenen Daten
|
||||
\item Likelihood: Wahrscheinlichkeitswerte der Daten auf Basis eines gegebenen \nomf{parameter_vector}
|
||||
\item Prior: Vermutete Richtigkeit von \nomf{parameter_vector}
|
||||
\item Evidence: lediglich ein Normalisierungsfaktor, der für den Modellvergleich benötigt wird (\cref{Model Comparison})
|
||||
\end{itemize}
|
||||
Die Vorhersage für einen neuen Datenpunkt $\bm x^*$ erfolgt auf Basis folgender Formel:
|
||||
\begin{equation} \label{eq:bayesian_learning:predictive_distribution}
|
||||
\underbrace{p(\bm y^*|\bm x^*,\mathcal D)}_{\text{marginal likelihood}}
|
||||
= \int \underbrace{p(\bm y^*|\bm x^*,\nomeq{parameter_vector})}_{\text{likelihood}}\underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}} d\nomeq{parameter_vector}
|
||||
\end{equation}
|
||||
$p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ wird hierbei als marginal likelihood bezeichnet,
|
||||
da \nomsym{parameter_vector} durch das Integral marginalisiert wird.
|
||||
Daher ist $p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ nur noch von den gegebenen Daten $\mathcal D$ abhängig.
|
||||
|
||||
\section{Example: Gaussian Distribution}%
|
||||
\label{sec:Example: Gaussian Distribution}
|
||||
Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
|
||||
kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
|
||||
\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
|
||||
p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
|
||||
=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
||||
\end{equation}
|
||||
Hieraus ergibt sich für einen ganzen Datensatz $\bm X$:
|
||||
\begin{equation} \label{eq:gaussian_distribution_dataset}
|
||||
p(\bm X|\nomeq{mean},\sigma)=\prod_i p(x_i|\nomeq{mean},\sigma) = \frac{1}{(2\pi\nomeq{variance})^{\frac{N}{2}}} \exp\left\{ -\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} \right\}
|
||||
\end{equation}
|
||||
Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden:
|
||||
\begin{itemize}
|
||||
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
|
||||
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
|
||||
($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$))
|
||||
\item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$
|
||||
\end{itemize}
|
||||
Da wir nun sowohl die Likelihood als auch die Posterior Funktion zur Verfügung haben,
|
||||
lässt sich die Marginal Likelihood errechnen:
|
||||
\begin{align} \label{eq:gaussian_distribution_marginal_likelihood}
|
||||
\underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\
|
||||
&= \int \mathcal N(x^*|\nomeq{mean},\sigma)\mathcal N(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\
|
||||
&= \mathcal N(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2)
|
||||
\end{align}
|
||||
Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch:
|
||||
\begin{itemize}
|
||||
\item $\nomeq{mean}_{x^*} = \nomeq{mean}_N$
|
||||
\item $\sigma_{x^*}^2 = \sigma_N^2 + \nomeq{variance}$
|
||||
\end{itemize}
|
||||
|
||||
\subsection{Completing the square}%
|
||||
\label{sub:Completing the square}
|
||||
Unter der Annahme,
|
||||
dass die \nomf{variance} bekannt ist,
|
||||
ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}:
|
||||
\begin{equation}
|
||||
\label{eq:gaussian_distribution_prior}
|
||||
p(\nomeq{mean}) = \mathcal N(\nomeq{mean}|\nomeq{mean}_0,\sigma_0)
|
||||
= \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\}
|
||||
\end{equation}
|
||||
Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen.
|
||||
Hieraus ergibt sich die a-posteriori Abschätzung
|
||||
\begin{align} \label{eq:gaussian_distribution_posterior}
|
||||
p(\nomeq{mean},\bm X) &= \frac{p(\bm X|\nomeq{mean})p(\nomeq{mean})}{p(\bm X)}\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})\\
|
||||
p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})
|
||||
\varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}
|
||||
\end{align}
|
||||
Der Prozess,
|
||||
mithilfe dessen diese Gleichung aufgelöst werden kann wird als \say{Completing the square} bezeichnet.
|
||||
Der erste Schritt ist es die Funktion in die kanonische Schreibweise zu überführen
|
||||
\begin{equation} \label{eq:canonical_form}
|
||||
\exp(- \frac{1}{2}a\mu^2 + b\mu + \text{const})
|
||||
\end{equation}
|
||||
\begin{align} \label{eq:gaussian_distribution_canonical_form}
|
||||
p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})
|
||||
\varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}\\
|
||||
&= \exp\left\{-\frac{1}{2}\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right) \nomeq{mean}^2
|
||||
+ \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right) \nomeq{mean} + \text{const}\right\}\\
|
||||
\Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\
|
||||
&b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right)
|
||||
\end{align}
|
||||
Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \mathcal N(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass:
|
||||
\begin{itemize}
|
||||
\item $\nomeq{mean}_N = a^{-1}b$
|
||||
\item $\sigma_N^2 = a^{-1}$
|
||||
\end{itemize}
|
||||
Daher ergibt sich:
|
||||
\begin{itemize}
|
||||
\item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0
|
||||
= \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\
|
||||
($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$))
|
||||
\item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$
|
||||
\end{itemize}
|
||||
|
||||
\subsection{Conjugate Priors}%
|
||||
\label{sub:Conjugate Priors}
|
||||
Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\mathcal N)$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}.
|
||||
Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich,
|
||||
da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden.
|
||||
|
||||
\section{Maximum a-posteriori solution}%
|
||||
\label{sec:Maximum a-posteriori solution}
|
||||
Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachung des Bayesian Learning Verfahrens.
|
||||
\begin{enumerate}
|
||||
\item den \noms{parameter_vector} $\nomeq{parameter_vector}_{\text{MAP}}$ finden, für den der Posterior maximal ist
|
||||
(Die Unsicherheit in \nomsym{parameter_vector} wird ignoriert):
|
||||
\begin{align} \label{eq:maximum_a-posteriori_solution_parameter_vector}
|
||||
\nomeq{parameter_vector}_{\text{MAP}}
|
||||
&= \argmax_{\nomeq{parameter_vector}} p(\nomeq{parameter_vector}|\mathcal D) \\
|
||||
&= \argmax_{\nomeq{parameter_vector}} p(\mathcal D|\nomeq{parameter_vector})p(\nomeq{parameter_vector})\\
|
||||
&=\argmax_{\nomeq{parameter_vector}} \log p(\mathcal D|\nomeq{parameter_vector}) + \log p(\nomeq{parameter_vector})
|
||||
\end{align}
|
||||
\item $\nomeq{parameter_vector}_{\text{MAP}}$ für die Vorhersage nutzen:
|
||||
\begin{equation} \label{eq:maximum_a-posteriori_solution_prediction}
|
||||
p(\bm x^*|\mathcal D)\approx p(\bm x^*|\nomeq{parameter_vector}_{\text{MAP}})
|
||||
\end{equation}
|
||||
\end{enumerate}
|
||||
|
||||
\subsection{Anwendungsbeispiel: Regression}%
|
||||
\label{sub:MAP:Anwendungsbeispiel: Regression}
|
||||
{\color{red} siehe Vorlesung 07 Folien 20-22}
|
||||
|
@ -1,3 +0,0 @@
|
||||
\chapter{Bayesian Linear Regression and Gaussian Processes}%
|
||||
\label{cha:Bayesian Linear Regression and Gaussian Processes}
|
||||
|
@ -0,0 +1,4 @@
|
||||
\chapter{Bayesian Regression Algorithms}%
|
||||
\label{cha:Bayesian Regression Algorithms}
|
||||
|
||||
|
@ -1,3 +0,0 @@
|
||||
\part{Example Part}
|
||||
|
||||
\input{chapters/ExamplePart/ExampleChapter.tex}
|
Loading…
x
Reference in New Issue
Block a user