diff --git a/Glossary.tex b/Glossary.tex index 94e1f33..db15927 100644 --- a/Glossary.tex +++ b/Glossary.tex @@ -1,4 +1,4 @@ -%% +% % all references for the glossary as well as the abbreviation list and nomenclature %% % add glossary for nomenclature @@ -129,6 +129,7 @@ \newnom{kernel_vector}{Kernel Vector}{\bm{k}}{} \newnom{margin}{Margin}{\rho}{} \newnom{slack-variable}{Slack-Variable}{\xi_i}{} +\newnom{parameter_vector}{Parameter Vector}{\bm{\theta}}{} \shorthandoff{"} \makeglossaries diff --git a/ML_Zusammenfassung.tex b/ML_Zusammenfassung.tex index 475df11..159bca2 100644 --- a/ML_Zusammenfassung.tex +++ b/ML_Zusammenfassung.tex @@ -37,7 +37,7 @@ \input{chapters/Mathematische_Grundlagen/Probability_Theory.tex} \input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex} \input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex} - \input{chapters/Mathematische_Grundlagen/Constraint Optimization.tex} + \input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex} \part{Classical Supervised Learning} \label{part:Classical Supervised Learning} @@ -56,7 +56,8 @@ \part{Bayesian Learning} \label{part:Bayesian Learning} - \input{chapters/Bayesian_Learning/Bayesian_Linear_Regression_and_Gaussian_Processes.tex} + \input{chapters/Bayesian_Learning/Bayesian_Learning.tex} + \input{chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex} \clearpage \part{Neural Networks} diff --git a/chapters/Bayesian_Learning/Bayesian_Learning.tex b/chapters/Bayesian_Learning/Bayesian_Learning.tex new file mode 100644 index 0000000..034083a --- /dev/null +++ b/chapters/Bayesian_Learning/Bayesian_Learning.tex @@ -0,0 +1,136 @@ +\chapter{Bayesian Learning**}% +\label{cha:Bayesian Learning} +Die meisten bisher behandelten Algorithmen geben auf Basis der gegebenen Eingaben ein einzelnes Modell (den \nomf{parameter_vector}) zurück. +Wie allerdings bereits gezeigt wurde, +sind die Daten störungsbehaftet. + +In \cref{sec:Random Forests} wurde gezeigt, +dass die Mischung mehrerer ähnlicher Modelle zu einer besseren Vorhersage führt. +Aus diesem Grund wird im Bayesian Learning versucht mehrere Modelle und die zugehörige Wahrscheinlichkeit für ihre Richtigkeit auf Basis der gegebenen Daten zu erstellen. + +Um die Wahrscheinlichkeit für die Richtigkeit eines \nomf{parameter_vector} zu bestimmen, +kann die Regel von Bayes (\cref{sub:Bayes Rule}) verwendet werden: +\begin{equation} \label{eq:bayesian_learning:bayes_theorem} + \underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}} + = \frac{\overbrace{p(\mathcal D|\nomeq{parameter_vector})}^{\text{data likelihood}}\overbrace{p(\nomeq{parameter_vector})}^{\text{prior}}}{\underbrace{p(\mathcal D)}_{\text{evidence}}} +\end{equation} +Hierbei haben die einzelnen Teile folgende Eigenschaften: +\begin{itemize} + \item Posterior: Wahrscheinlichkeit für die Richtigkeit von \nomf{parameter_vector} auf Basis der gegebenen Daten + \item Likelihood: Wahrscheinlichkeitswerte der Daten auf Basis eines gegebenen \nomf{parameter_vector} + \item Prior: Vermutete Richtigkeit von \nomf{parameter_vector} + \item Evidence: lediglich ein Normalisierungsfaktor, der für den Modellvergleich benötigt wird (\cref{Model Comparison}) +\end{itemize} +Die Vorhersage für einen neuen Datenpunkt $\bm x^*$ erfolgt auf Basis folgender Formel: +\begin{equation} \label{eq:bayesian_learning:predictive_distribution} + \underbrace{p(\bm y^*|\bm x^*,\mathcal D)}_{\text{marginal likelihood}} + = \int \underbrace{p(\bm y^*|\bm x^*,\nomeq{parameter_vector})}_{\text{likelihood}}\underbrace{p(\nomeq{parameter_vector}|\mathcal D)}_{\text{posterior}} d\nomeq{parameter_vector} +\end{equation} +$p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ wird hierbei als marginal likelihood bezeichnet, +da \nomsym{parameter_vector} durch das Integral marginalisiert wird. +Daher ist $p(\bm y^*|\bm x^*,\nomeq{parameter_vector})$ nur noch von den gegebenen Daten $\mathcal D$ abhängig. + +\section{Example: Gaussian Distribution}% +\label{sec:Example: Gaussian Distribution} +Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet, +kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden: +\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector} + p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\}) + =\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\} +\end{equation} +Hieraus ergibt sich für einen ganzen Datensatz $\bm X$: +\begin{equation} \label{eq:gaussian_distribution_dataset} + p(\bm X|\nomeq{mean},\sigma)=\prod_i p(x_i|\nomeq{mean},\sigma) = \frac{1}{(2\pi\nomeq{variance})^{\frac{N}{2}}} \exp\left\{ -\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} \right\} +\end{equation} +Mithilfe des \say{\nameref{sub:Completing the square}} Verfahrens können \nomf{variance} und \nomf{mean} für die a-posteriori Abschätzung ermittelt werden: +\begin{itemize} + \item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0 + = \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\ + ($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$)) + \item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$ +\end{itemize} +Da wir nun sowohl die Likelihood als auch die Posterior Funktion zur Verfügung haben, +lässt sich die Marginal Likelihood errechnen: +\begin{align} \label{eq:gaussian_distribution_marginal_likelihood} + \underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\ + &= \int \mathcal N(x^*|\nomeq{mean},\sigma)\mathcal N(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\ + &= \mathcal N(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2) +\end{align} +Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch: +\begin{itemize} + \item $\nomeq{mean}_{x^*} = \nomeq{mean}_N$ + \item $\sigma_{x^*}^2 = \sigma_N^2 + \nomeq{variance}$ +\end{itemize} + +\subsection{Completing the square}% +\label{sub:Completing the square} +Unter der Annahme, +dass die \nomf{variance} bekannt ist, +ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}: +\begin{equation} + \label{eq:gaussian_distribution_prior} + p(\nomeq{mean}) = \mathcal N(\nomeq{mean}|\nomeq{mean}_0,\sigma_0) + = \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\} +\end{equation} +Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen. +Hieraus ergibt sich die a-posteriori Abschätzung +\begin{align} \label{eq:gaussian_distribution_posterior} + p(\nomeq{mean},\bm X) &= \frac{p(\bm X|\nomeq{mean})p(\nomeq{mean})}{p(\bm X)}\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean})\\ + p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean}) + \varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\} +\end{align} +Der Prozess, +mithilfe dessen diese Gleichung aufgelöst werden kann wird als \say{Completing the square} bezeichnet. +Der erste Schritt ist es die Funktion in die kanonische Schreibweise zu überführen +\begin{equation} \label{eq:canonical_form} + \exp(- \frac{1}{2}a\mu^2 + b\mu + \text{const}) +\end{equation} +\begin{align} \label{eq:gaussian_distribution_canonical_form} + p(\nomeq{mean},\bm X) &\varpropto p(\bm X|\nomeq{mean})p(\nomeq{mean}) + \varpropto\exp\left\{-\frac{\sum_i(x_i-\nomeq{mean})^2}{2\nomeq{variance}} - \frac{(\nomeq{mean} - \mu_0)^2}{2\sigma_0^2}\right\}\\ + &= \exp\left\{-\frac{1}{2}\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right) \nomeq{mean}^2 + + \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right) \nomeq{mean} + \text{const}\right\}\\ + \Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\ + &b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right) +\end{align} +Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \mathcal N(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass: +\begin{itemize} + \item $\nomeq{mean}_N = a^{-1}b$ + \item $\sigma_N^2 = a^{-1}$ +\end{itemize} +Daher ergibt sich: +\begin{itemize} + \item $\nomeq{mean}_N = \dfrac{N\sigma_0^2}{N\sigma_0^2+\nomeq{variance}}\sum_i x_i + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0 + = \dfrac{N\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_{ML} + \dfrac{\nomeq{variance}}{N\sigma_0^2 + \nomeq{variance}}\nomeq{mean}_0$\\ + ($\nomeq{mean}_{ML}$: Durchschnitt der Maximum Likelihood ($N\cdot\nomeq{mean}_{ML}=\sum_i x_i$)) + \item $\sigma_N^2 = \dfrac{\nomeq{variance}\sigma_0^2}{N\sigma_0^2 + \nomeq{variance}}$ +\end{itemize} + +\subsection{Conjugate Priors}% +\label{sub:Conjugate Priors} +Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\mathcal N)$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}. +Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich, +da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden. + +\section{Maximum a-posteriori solution}% +\label{sec:Maximum a-posteriori solution} +Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachung des Bayesian Learning Verfahrens. +\begin{enumerate} + \item den \noms{parameter_vector} $\nomeq{parameter_vector}_{\text{MAP}}$ finden, für den der Posterior maximal ist + (Die Unsicherheit in \nomsym{parameter_vector} wird ignoriert): + \begin{align} \label{eq:maximum_a-posteriori_solution_parameter_vector} + \nomeq{parameter_vector}_{\text{MAP}} + &= \argmax_{\nomeq{parameter_vector}} p(\nomeq{parameter_vector}|\mathcal D) \\ + &= \argmax_{\nomeq{parameter_vector}} p(\mathcal D|\nomeq{parameter_vector})p(\nomeq{parameter_vector})\\ + &=\argmax_{\nomeq{parameter_vector}} \log p(\mathcal D|\nomeq{parameter_vector}) + \log p(\nomeq{parameter_vector}) + \end{align} + \item $\nomeq{parameter_vector}_{\text{MAP}}$ für die Vorhersage nutzen: + \begin{equation} \label{eq:maximum_a-posteriori_solution_prediction} + p(\bm x^*|\mathcal D)\approx p(\bm x^*|\nomeq{parameter_vector}_{\text{MAP}}) + \end{equation} +\end{enumerate} + +\subsection{Anwendungsbeispiel: Regression}% +\label{sub:MAP:Anwendungsbeispiel: Regression} +{\color{red} siehe Vorlesung 07 Folien 20-22} + diff --git a/chapters/Bayesian_Learning/Bayesian_Linear_Regression_and_Gaussian_Processes.tex b/chapters/Bayesian_Learning/Bayesian_Linear_Regression_and_Gaussian_Processes.tex deleted file mode 100644 index 1ed8f97..0000000 --- a/chapters/Bayesian_Learning/Bayesian_Linear_Regression_and_Gaussian_Processes.tex +++ /dev/null @@ -1,3 +0,0 @@ -\chapter{Bayesian Linear Regression and Gaussian Processes}% -\label{cha:Bayesian Linear Regression and Gaussian Processes} - diff --git a/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex b/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex new file mode 100644 index 0000000..c21633c --- /dev/null +++ b/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex @@ -0,0 +1,4 @@ +\chapter{Bayesian Regression Algorithms}% +\label{cha:Bayesian Regression Algorithms} + + diff --git a/chapters/Mathematische_Grundlagen/Constraint Optimization.tex b/chapters/Mathematische_Grundlagen/Constraint_Optimization.tex similarity index 100% rename from chapters/Mathematische_Grundlagen/Constraint Optimization.tex rename to chapters/Mathematische_Grundlagen/Constraint_Optimization.tex diff --git a/parts/ExamplePart.tex b/parts/ExamplePart.tex deleted file mode 100644 index efc1090..0000000 --- a/parts/ExamplePart.tex +++ /dev/null @@ -1,3 +0,0 @@ -\part{Example Part} - -\input{chapters/ExamplePart/ExampleChapter.tex} \ No newline at end of file