forked from TH_General/Template_Summary
Mathematische Grundlagen für die Bayesian Regression hinzugefügt.
This commit is contained in:
parent
e555dff40b
commit
2e793e36af
@ -130,6 +130,7 @@
|
||||
\newnom{margin}{Margin}{\rho}{}
|
||||
\newnom{slack-variable}{Slack-Variable}{\xi_i}{}
|
||||
\newnom{parameter_vector}{Parameter Vector}{\bm{\theta}}{}
|
||||
\newnom{gaussian_distribution}{Gaußsche Normalverteilung}{\mathcal{N}}{}
|
||||
\shorthandoff{"}
|
||||
|
||||
\makeglossaries
|
||||
|
@ -31,14 +31,6 @@
|
||||
\part{Einleitung}
|
||||
\input{chapters/Einleitung.tex}
|
||||
|
||||
\part{Mathematische Grundlagen}
|
||||
\label{part:Mathematische Grundlagen}
|
||||
\input{chapters/Mathematische_Grundlagen/Lineare_Algebra.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Probability_Theory.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex}
|
||||
|
||||
\part{Classical Supervised Learning}
|
||||
\label{part:Classical Supervised Learning}
|
||||
\input{chapters/Classical_Supervised_Learning/Linear_Regression.tex}
|
||||
@ -46,32 +38,36 @@
|
||||
\input{chapters/Classical_Supervised_Learning/Model_Selection.tex}
|
||||
\input{chapters/Classical_Supervised_Learning/k-Nearest_Neighbors.tex}
|
||||
\input{chapters/Classical_Supervised_Learning/Trees_and_Forests.tex}
|
||||
\clearpage
|
||||
|
||||
\part{Kernel Methods}
|
||||
\label{part:Kernel Methods}
|
||||
\input{chapters/Kernel_Methods/Kernel-Regression.tex}
|
||||
\input{chapters/Kernel_Methods/Support_Vector_Machines.tex}
|
||||
\clearpage
|
||||
|
||||
\part{Bayesian Learning}
|
||||
\label{part:Bayesian Learning}
|
||||
\input{chapters/Bayesian_Learning/Bayesian_Learning.tex}
|
||||
\input{chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex}
|
||||
\clearpage
|
||||
|
||||
\part{Neural Networks}
|
||||
\label{part:Neural Networks}
|
||||
\input{chapters/Neural_Networks/Neural_Networks_and_Backpropagation.tex}
|
||||
\input{chapters/Neural_Networks/CNNs_and_LSTMs.tex}
|
||||
\clearpage
|
||||
|
||||
\part{Classical Unsupervised Learning}
|
||||
\label{part:Classical Unsupervised Learning}
|
||||
\input{chapters/Classical_Unsupervised_Learning/Dimensionality_Reduction_and_Clustering.tex}
|
||||
\input{chapters/Classical_Unsupervised_Learning/Density_Estimation_and_Mixture_Models.tex}
|
||||
\input{chapters/Classical_Unsupervised_Learning/Variational_Auto-Encoders.tex}
|
||||
\clearpage
|
||||
|
||||
\part{Mathematische Grundlagen}
|
||||
\label{part:Mathematische Grundlagen}
|
||||
\input{chapters/Mathematische_Grundlagen/Lineare_Algebra.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Probability_Theory.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex}
|
||||
\input{chapters/Mathematische_Grundlagen/Gaussian_Identities.tex}
|
||||
% }}} %
|
||||
|
||||
\input{Appendix.tex}
|
||||
|
@ -165,3 +165,8 @@ rightsub = \grq%
|
||||
%--------------------
|
||||
\usepackage{algorithm}
|
||||
\usepackage{algpseudocode}
|
||||
|
||||
%--------------------
|
||||
% quick and dirty tabstops
|
||||
%--------------------
|
||||
\usepackage{tabto}
|
||||
|
@ -36,7 +36,7 @@ Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
|
||||
kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
|
||||
\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
|
||||
p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
|
||||
=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
||||
=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
||||
\end{equation}
|
||||
Hieraus ergibt sich für einen ganzen Datensatz $\bm X$:
|
||||
\begin{equation} \label{eq:gaussian_distribution_dataset}
|
||||
@ -53,8 +53,8 @@ Da wir nun sowohl die Likelihood als auch die Posterior Funktion zur Verfügung
|
||||
lässt sich die Marginal Likelihood errechnen:
|
||||
\begin{align} \label{eq:gaussian_distribution_marginal_likelihood}
|
||||
\underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\
|
||||
&= \int \mathcal N(x^*|\nomeq{mean},\sigma)\mathcal N(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\
|
||||
&= \mathcal N(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2)
|
||||
&= \int \nomeq{gaussian_distribution}(x^*|\nomeq{mean},\sigma)\nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\
|
||||
&= \nomeq{gaussian_distribution}(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2)
|
||||
\end{align}
|
||||
Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch:
|
||||
\begin{itemize}
|
||||
@ -69,7 +69,7 @@ dass die \nomf{variance} bekannt ist,
|
||||
ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}:
|
||||
\begin{equation}
|
||||
\label{eq:gaussian_distribution_prior}
|
||||
p(\nomeq{mean}) = \mathcal N(\nomeq{mean}|\nomeq{mean}_0,\sigma_0)
|
||||
p(\nomeq{mean}) = \nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_0,\sigma_0)
|
||||
= \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\}
|
||||
\end{equation}
|
||||
Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen.
|
||||
@ -93,7 +93,7 @@ Der erste Schritt ist es die Funktion in die kanonische Schreibweise zu überfü
|
||||
\Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\
|
||||
&b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right)
|
||||
\end{align}
|
||||
Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \mathcal N(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass:
|
||||
Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \nomeq{gaussian_distribution}(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass:
|
||||
\begin{itemize}
|
||||
\item $\nomeq{mean}_N = a^{-1}b$
|
||||
\item $\sigma_N^2 = a^{-1}$
|
||||
@ -108,7 +108,7 @@ Daher ergibt sich:
|
||||
|
||||
\subsection{Conjugate Priors}%
|
||||
\label{sub:Conjugate Priors}
|
||||
Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\mathcal N)$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}.
|
||||
Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\nomeq{gaussian_distribution})$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}.
|
||||
Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich,
|
||||
da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden.
|
||||
|
||||
@ -132,5 +132,8 @@ Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachun
|
||||
|
||||
\subsection{Anwendungsbeispiel: Regression}%
|
||||
\label{sub:MAP:Anwendungsbeispiel: Regression}
|
||||
Läuft am Ende auf \nameref{sub:Ridge Regression} hinaus.
|
||||
Soll den Zusammenhang beider Methoden zeigen.
|
||||
{\color{red} siehe Vorlesung 07 Folien 20-22}
|
||||
|
||||
|
||||
|
@ -1,4 +1,27 @@
|
||||
\chapter{Bayesian Regression Algorithms}%
|
||||
\label{cha:Bayesian Regression Algorithms}
|
||||
|
||||
\section{Bayesian Linear Regression}%
|
||||
\label{sec:Bayesian Linear Regression}
|
||||
Für die Bayesian Linear Regression ist es möglich den Posterior und die Vorhersage ohne die Nutzung von Approximationen zu berechnen.
|
||||
Hierzu werden die folgenden Komponenten benötigt:
|
||||
\begin{itemize}
|
||||
\item Likelihood (einzelnes Sample): $p(y|\bm x,\bm w) = \nomeq{gaussian_distribution}(y|\bm w^T \nomeq{vector_valued_function},\nomeq{variance})$
|
||||
\item Likelihood (ganzer Datensatz): $p(\bm y|\bm X,\bm w) = \prod_i \nomeq{gaussian_distribution}(y_i|\bm w^T \bm\phi(\bm x_i), \nomeq{variance})$
|
||||
\item Gaussian Prior: $p(\bm w) = \nomeq{gaussian_distribution}(\bm w|0,\nomeq{regularization_factor}^{-1}\nomeq{identity_matrix})$
|
||||
\end{itemize}
|
||||
Anschließend erfolgt die Regression nach den Schritten des \nameref{cha:Bayesian Learning}:
|
||||
\begin{enumerate}
|
||||
\item Posterior errechnen:
|
||||
\begin{equation} \label{eq:bayesion_linear_regression_posterior}
|
||||
p(\bm w|\bm X,\bm y) = \frac{p(\bm y|\bm X,\bm w)p(\bm w)}{p(\bm y|\bm X)}
|
||||
= \frac{p(\bm y|\bm X,\bm w)p(\bm w)}{\int p(\bm y|\bm X,\bm w)p(\bm w)d\bm w}
|
||||
\end{equation}
|
||||
\item Predictive Distribution errechnen:
|
||||
\begin{equation} \label{eq:bayesion_linear_regression_predictive_distribution}
|
||||
p(y^*|\bm x^*,\bm X,\bm y) = \int p(y^*|\bm w,\bm x^*)p(\bm w|\bm X,\bm y)d\bm w
|
||||
\end{equation}
|
||||
\end{enumerate}
|
||||
|
||||
WEITER AUF FOLIE 398
|
||||
|
||||
|
@ -29,7 +29,7 @@ Um den Zusammenhang von Bias"~Variance Decomposition und True Risk zu verstehen,
|
||||
wird die Zerteilung im folgenden am Beispiel der Regression gezeigt.
|
||||
\begin{itemize}
|
||||
\item Die Eingangsdaten ergeben sich aus der realen Basisfunktion $f(\bm{x})$ und der zufälligen Störung $\epsilon$
|
||||
$$y=f(\bm{x}) + \epsilon,\qquad\epsilon\sim\mathcal{N}(0,\nomeq{variance})$$
|
||||
$$y=f(\bm{x}) + \epsilon,\qquad\epsilon\sim\nomeq{gaussian_distribution}(0,\nomeq{variance})$$
|
||||
\item Der Expected Loss $R(\hat{f}_{D_n})$ der auf den Daten $D_n$ trainierten Funktion $\hat{f}_{D_n}$ ist gegeben durch:
|
||||
\begin{align} \label{eq:bias-variance_decomposition}
|
||||
R(\hat{f}_{D_n})&=\mathbb{E}_{D_n}\left[\mathbb{E}_{x,y}\left[(\hat{f}_{D_n}(\bm{x})-y)^2\right]\right]\\
|
||||
|
80
chapters/Mathematische_Grundlagen/Gaussian_Identities.tex
Normal file
80
chapters/Mathematische_Grundlagen/Gaussian_Identities.tex
Normal file
@ -0,0 +1,80 @@
|
||||
\chapter{Gaussian Identities}%
|
||||
\label{cha:Gaussian Identities}
|
||||
Im folgenden werden 3 Gaussian Identities genauer betrachtet
|
||||
\begin{enumerate}
|
||||
\item Marginal Gaussian Distribution: die Gaußsche Normalverteilung von einem Faktor
|
||||
\begin{equation} \label{eq:marginal_gaussian_distribution}
|
||||
p(\bm x) = \nomeq{gaussian_distribution}(\bm x|\bm \mu_x,\nomeq{covariance}_{\bm x})
|
||||
\end{equation}
|
||||
\item Conditional Gaussian Distribution: die Gaußsche Normalverteilung des zweiten Faktors in Abhängigkeit vom ersten Faktor
|
||||
($\bm F$: lineares Modell, dass $\bm x$ und $\bm y$ verknüpft)
|
||||
\begin{equation} \label{eq:conditional_gaussian_distribution}
|
||||
p(\bm y|\bm x) = \nomeq{gaussian_distribution}(\bm y|\bm F\bm x,\nomeq{covariance}_{\bm y})
|
||||
\end{equation}
|
||||
\item Joint Gaussian Distribution: Die Gaußsche Normalverteilung in Abhängigkeit von beiden Faktoren
|
||||
\begin{equation} \label{eq:joint_gaussian_distribution}
|
||||
p(\bm x,\bm y)
|
||||
= \nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} |
|
||||
\begin{bmatrix} \bm\mu_{\bm x} \\ \bm F\bm\mu_{\bm x} \end{bmatrix},
|
||||
\begin{bmatrix}
|
||||
\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm x}\bm F^T \\
|
||||
\bm F\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm y} + \bm F\nomeq{covariance}_{\bm x} \bm F^T
|
||||
\end{bmatrix} \right)
|
||||
\end{equation}
|
||||
\end{enumerate}
|
||||
Es gibt zwei Richtungen,
|
||||
in die umgewandelt werden kann:
|
||||
\begin{enumerate}
|
||||
\item Marginal und Conditional wird zu Joint:\\
|
||||
($\bm F$: lineares Modell, dass $\bm x$ und $\bm y$ verknüpft)
|
||||
\begin{equation} \label{eq:joint_gaussian_distribution_from_marginal_and_conditional}
|
||||
\nomeq{gaussian_distribution}(\bm x|\bm\mu_{\bm x},\nomeq{covariance}_{\bm x})\nomeq{gaussian_distribution}(\bm y|\bm F\bm x,\nomeq{covariance}_{\bm y})
|
||||
= \nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} |
|
||||
\begin{bmatrix} \bm\mu_{\bm x} \\ \bm F\bm\mu_{\bm x} \end{bmatrix},
|
||||
\begin{bmatrix}
|
||||
\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm x}\bm F^T \\
|
||||
\bm F\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm y} + \bm F\nomeq{covariance}_{\bm x} \bm F^T
|
||||
\end{bmatrix} \right)
|
||||
\end{equation}
|
||||
\item Joint zu Marginal und Conditional:\\
|
||||
($C$ ist wieder eine Matrix, die eine lineare Relation zwischen $x$ und $y$ herstellt)
|
||||
\begin{equation} \label{eq:marginal_and_conditional_gaussian_distribution_from_joint}
|
||||
\nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} |
|
||||
\begin{bmatrix} \bm\mu_{\bm x} \\ \bm\mu_{\bm y} \end{bmatrix},
|
||||
\begin{bmatrix} \nomeq{covariance}_{\bm x} & \bm C \\ \bm C^T & \nomeq{covariance}_{\bm y} \end{bmatrix} \right)
|
||||
= \nomeq{gaussian_distribution}(\bm x|\bm\mu_{\bm x},\nomeq{covariance}_{\bm x})
|
||||
\nomeq{gaussian_distribution}(\bm y| \bm\mu_{\bm y} + \bm C^T\nomeq{covariance}_{\bm x}^{-1}(\bm x - \bm\mu_{\bm x}),
|
||||
\nomeq{covariance}_{\bm y} - \bm C^T\nomeq{covariance}_{\bm x}^{-1}\bm C)
|
||||
\end{equation}
|
||||
\end{enumerate}
|
||||
|
||||
\section{Gaussian Bayes Rules}%
|
||||
\label{sec:Gaussian Bayes Rules}
|
||||
Es gibt zwei bayesische Regeln für die Errechnung des Posteriors:\\
|
||||
({\color{red}Herleitung Vorlesung 07 Folien 28 und 29})\\
|
||||
Gegeben: Marginal (\cref{eq:marginal_gaussian_distribution}) und Conditional (\cref{eq:conditional_gaussian_distribution})
|
||||
\begin{itemize}
|
||||
\item Gaussian Bayes Rule 1:
|
||||
\begin{itemize}
|
||||
\item Mean: \tabto{2.2cm}$\bm\mu_{\bm x|\bm y}
|
||||
= \bm\mu_{\bm x} + \nomeq{covariance}_{\bm x}\bm F^T(\sigma_{\bm y}^2\nomeq{identity_matrix} + \bm F\nomeq{covariance}_{\bm x}\bm F^T)^{-1}(\bm y - \bm F\bm\mu_{\bm x})$
|
||||
\item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm x|\bm y}
|
||||
= \nomeq{covariance}_{\bm x}-\nomeq{covariance}_{\bm x}\bm F^T(\sigma_{\bm y}^2\nomeq{identity_matrix}+\bm F\nomeq{covariance}_{\bm x}\bm F^T)^{-1}\bm F\nomeq{covariance}_{\bm x}$
|
||||
\end{itemize}
|
||||
\item Gaussian Bayes Rule 2:
|
||||
\begin{itemize}
|
||||
\item Mean: \tabto{2.2cm}$\bm\mu_{\bm x|\bm y}
|
||||
= \bm\mu_{\bm x} + (\sigma_{\bm y}^2\nomeq{covariance}_{\bm x}^{-1} + \bm F^T\bm F)^{-1} \bm F^T (\bm y - \bm F\bm\mu_{\bm x})$
|
||||
\item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm x|\bm y}
|
||||
= \sigma_{\bm y}^2(\sigma_{\bm y}^2\nomeq{covariance}_{\bm x}^{-1} + \bm F^T\bm F)^{-1}$
|
||||
\end{itemize}
|
||||
\end{itemize}
|
||||
|
||||
\section{Gaussian Propagation}%
|
||||
\label{sec:Gaussian Propagation}
|
||||
Mit den Marginal und Conditional aus \cref{eq:marginal_gaussian_distribution} und \cref{eq:conditional_gaussian_distribution} ist es möglich den Conditional $p(\bm y)$ zu ermitteln:\\
|
||||
({\color{red}Herleitung Vorlesung 07 Folie 31})
|
||||
\begin{itemize}
|
||||
\item Mean: \tabto{2.2cm}$\bm\mu_{\bm y} = \bm F\bm\mu_{\bm x}$
|
||||
\item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm y} = \sigma_{\bm y}^2\nomeq{identity_matrix} + \bm F\nomeq{covariance}_{\bm x}\bm F^T$
|
||||
\end{itemize}
|
@ -137,7 +137,7 @@ Diese Verteilung kann mithilfe eines 1-hot-encoding-Vektor $\bm{h}_c = \begin{ca
|
||||
\end{wrapfigure}
|
||||
Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert.
|
||||
\begin{equation} \label{eq:gaussian_distribution}
|
||||
\nomeq{probability_mass_function}=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
||||
\nomeq{probability_mass_function}=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
||||
\end{equation}
|
||||
\vspace{10mm}
|
||||
|
||||
@ -154,7 +154,7 @@ Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R
|
||||
Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$).
|
||||
Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert:
|
||||
\begin{equation} \label{eq:multivariate_gaussian_distribution}
|
||||
p(\bm{x}) =\mathcal{N}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance})
|
||||
p(\bm{x}) =\nomeq{gaussian_distribution}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance})
|
||||
= \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\}
|
||||
\end{equation}
|
||||
|
||||
|
Loading…
x
Reference in New Issue
Block a user