Mathematische Grundlagen für die Bayesian Regression hinzugefügt.

This commit is contained in:
paul-loedige 2022-02-15 00:37:41 +01:00
parent e555dff40b
commit 2e793e36af
8 changed files with 130 additions and 22 deletions

View File

@ -130,6 +130,7 @@
\newnom{margin}{Margin}{\rho}{} \newnom{margin}{Margin}{\rho}{}
\newnom{slack-variable}{Slack-Variable}{\xi_i}{} \newnom{slack-variable}{Slack-Variable}{\xi_i}{}
\newnom{parameter_vector}{Parameter Vector}{\bm{\theta}}{} \newnom{parameter_vector}{Parameter Vector}{\bm{\theta}}{}
\newnom{gaussian_distribution}{Gaußsche Normalverteilung}{\mathcal{N}}{}
\shorthandoff{"} \shorthandoff{"}
\makeglossaries \makeglossaries

View File

@ -31,14 +31,6 @@
\part{Einleitung} \part{Einleitung}
\input{chapters/Einleitung.tex} \input{chapters/Einleitung.tex}
\part{Mathematische Grundlagen}
\label{part:Mathematische Grundlagen}
\input{chapters/Mathematische_Grundlagen/Lineare_Algebra.tex}
\input{chapters/Mathematische_Grundlagen/Probability_Theory.tex}
\input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex}
\input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex}
\input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex}
\part{Classical Supervised Learning} \part{Classical Supervised Learning}
\label{part:Classical Supervised Learning} \label{part:Classical Supervised Learning}
\input{chapters/Classical_Supervised_Learning/Linear_Regression.tex} \input{chapters/Classical_Supervised_Learning/Linear_Regression.tex}
@ -46,32 +38,36 @@
\input{chapters/Classical_Supervised_Learning/Model_Selection.tex} \input{chapters/Classical_Supervised_Learning/Model_Selection.tex}
\input{chapters/Classical_Supervised_Learning/k-Nearest_Neighbors.tex} \input{chapters/Classical_Supervised_Learning/k-Nearest_Neighbors.tex}
\input{chapters/Classical_Supervised_Learning/Trees_and_Forests.tex} \input{chapters/Classical_Supervised_Learning/Trees_and_Forests.tex}
\clearpage
\part{Kernel Methods} \part{Kernel Methods}
\label{part:Kernel Methods} \label{part:Kernel Methods}
\input{chapters/Kernel_Methods/Kernel-Regression.tex} \input{chapters/Kernel_Methods/Kernel-Regression.tex}
\input{chapters/Kernel_Methods/Support_Vector_Machines.tex} \input{chapters/Kernel_Methods/Support_Vector_Machines.tex}
\clearpage
\part{Bayesian Learning} \part{Bayesian Learning}
\label{part:Bayesian Learning} \label{part:Bayesian Learning}
\input{chapters/Bayesian_Learning/Bayesian_Learning.tex} \input{chapters/Bayesian_Learning/Bayesian_Learning.tex}
\input{chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex} \input{chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex}
\clearpage
\part{Neural Networks} \part{Neural Networks}
\label{part:Neural Networks} \label{part:Neural Networks}
\input{chapters/Neural_Networks/Neural_Networks_and_Backpropagation.tex} \input{chapters/Neural_Networks/Neural_Networks_and_Backpropagation.tex}
\input{chapters/Neural_Networks/CNNs_and_LSTMs.tex} \input{chapters/Neural_Networks/CNNs_and_LSTMs.tex}
\clearpage
\part{Classical Unsupervised Learning} \part{Classical Unsupervised Learning}
\label{part:Classical Unsupervised Learning} \label{part:Classical Unsupervised Learning}
\input{chapters/Classical_Unsupervised_Learning/Dimensionality_Reduction_and_Clustering.tex} \input{chapters/Classical_Unsupervised_Learning/Dimensionality_Reduction_and_Clustering.tex}
\input{chapters/Classical_Unsupervised_Learning/Density_Estimation_and_Mixture_Models.tex} \input{chapters/Classical_Unsupervised_Learning/Density_Estimation_and_Mixture_Models.tex}
\input{chapters/Classical_Unsupervised_Learning/Variational_Auto-Encoders.tex} \input{chapters/Classical_Unsupervised_Learning/Variational_Auto-Encoders.tex}
\clearpage
\part{Mathematische Grundlagen}
\label{part:Mathematische Grundlagen}
\input{chapters/Mathematische_Grundlagen/Lineare_Algebra.tex}
\input{chapters/Mathematische_Grundlagen/Probability_Theory.tex}
\input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex}
\input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex}
\input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex}
\input{chapters/Mathematische_Grundlagen/Gaussian_Identities.tex}
% }}} % % }}} %
\input{Appendix.tex} \input{Appendix.tex}

View File

@ -165,3 +165,8 @@ rightsub = \grq%
%-------------------- %--------------------
\usepackage{algorithm} \usepackage{algorithm}
\usepackage{algpseudocode} \usepackage{algpseudocode}
%--------------------
% quick and dirty tabstops
%--------------------
\usepackage{tabto}

View File

@ -36,7 +36,7 @@ Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet,
kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden: kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden:
\begin{equation} \label{eq:Gaussian_Distribution_parameter_vector} \begin{equation} \label{eq:Gaussian_Distribution_parameter_vector}
p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\}) p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\})
=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\} =\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
\end{equation} \end{equation}
Hieraus ergibt sich für einen ganzen Datensatz $\bm X$: Hieraus ergibt sich für einen ganzen Datensatz $\bm X$:
\begin{equation} \label{eq:gaussian_distribution_dataset} \begin{equation} \label{eq:gaussian_distribution_dataset}
@ -53,8 +53,8 @@ Da wir nun sowohl die Likelihood als auch die Posterior Funktion zur Verfügung
lässt sich die Marginal Likelihood errechnen: lässt sich die Marginal Likelihood errechnen:
\begin{align} \label{eq:gaussian_distribution_marginal_likelihood} \begin{align} \label{eq:gaussian_distribution_marginal_likelihood}
\underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\ \underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\
&= \int \mathcal N(x^*|\nomeq{mean},\sigma)\mathcal N(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\ &= \int \nomeq{gaussian_distribution}(x^*|\nomeq{mean},\sigma)\nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\
&= \mathcal N(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2) &= \nomeq{gaussian_distribution}(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2)
\end{align} \end{align}
Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch: Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch:
\begin{itemize} \begin{itemize}
@ -69,7 +69,7 @@ dass die \nomf{variance} bekannt ist,
ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}: ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}:
\begin{equation} \begin{equation}
\label{eq:gaussian_distribution_prior} \label{eq:gaussian_distribution_prior}
p(\nomeq{mean}) = \mathcal N(\nomeq{mean}|\nomeq{mean}_0,\sigma_0) p(\nomeq{mean}) = \nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_0,\sigma_0)
= \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\} = \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\}
\end{equation} \end{equation}
Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen. Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen.
@ -93,7 +93,7 @@ Der erste Schritt ist es die Funktion in die kanonische Schreibweise zu überfü
\Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\ \Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\
&b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right) &b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right)
\end{align} \end{align}
Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \mathcal N(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass: Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \nomeq{gaussian_distribution}(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass:
\begin{itemize} \begin{itemize}
\item $\nomeq{mean}_N = a^{-1}b$ \item $\nomeq{mean}_N = a^{-1}b$
\item $\sigma_N^2 = a^{-1}$ \item $\sigma_N^2 = a^{-1}$
@ -108,7 +108,7 @@ Daher ergibt sich:
\subsection{Conjugate Priors}% \subsection{Conjugate Priors}%
\label{sub:Conjugate Priors} \label{sub:Conjugate Priors}
Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\mathcal N)$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}. Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\nomeq{gaussian_distribution})$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}.
Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich, Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich,
da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden. da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden.
@ -132,5 +132,8 @@ Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachun
\subsection{Anwendungsbeispiel: Regression}% \subsection{Anwendungsbeispiel: Regression}%
\label{sub:MAP:Anwendungsbeispiel: Regression} \label{sub:MAP:Anwendungsbeispiel: Regression}
Läuft am Ende auf \nameref{sub:Ridge Regression} hinaus.
Soll den Zusammenhang beider Methoden zeigen.
{\color{red} siehe Vorlesung 07 Folien 20-22} {\color{red} siehe Vorlesung 07 Folien 20-22}

View File

@ -1,4 +1,27 @@
\chapter{Bayesian Regression Algorithms}% \chapter{Bayesian Regression Algorithms}%
\label{cha:Bayesian Regression Algorithms} \label{cha:Bayesian Regression Algorithms}
\section{Bayesian Linear Regression}%
\label{sec:Bayesian Linear Regression}
Für die Bayesian Linear Regression ist es möglich den Posterior und die Vorhersage ohne die Nutzung von Approximationen zu berechnen.
Hierzu werden die folgenden Komponenten benötigt:
\begin{itemize}
\item Likelihood (einzelnes Sample): $p(y|\bm x,\bm w) = \nomeq{gaussian_distribution}(y|\bm w^T \nomeq{vector_valued_function},\nomeq{variance})$
\item Likelihood (ganzer Datensatz): $p(\bm y|\bm X,\bm w) = \prod_i \nomeq{gaussian_distribution}(y_i|\bm w^T \bm\phi(\bm x_i), \nomeq{variance})$
\item Gaussian Prior: $p(\bm w) = \nomeq{gaussian_distribution}(\bm w|0,\nomeq{regularization_factor}^{-1}\nomeq{identity_matrix})$
\end{itemize}
Anschließend erfolgt die Regression nach den Schritten des \nameref{cha:Bayesian Learning}:
\begin{enumerate}
\item Posterior errechnen:
\begin{equation} \label{eq:bayesion_linear_regression_posterior}
p(\bm w|\bm X,\bm y) = \frac{p(\bm y|\bm X,\bm w)p(\bm w)}{p(\bm y|\bm X)}
= \frac{p(\bm y|\bm X,\bm w)p(\bm w)}{\int p(\bm y|\bm X,\bm w)p(\bm w)d\bm w}
\end{equation}
\item Predictive Distribution errechnen:
\begin{equation} \label{eq:bayesion_linear_regression_predictive_distribution}
p(y^*|\bm x^*,\bm X,\bm y) = \int p(y^*|\bm w,\bm x^*)p(\bm w|\bm X,\bm y)d\bm w
\end{equation}
\end{enumerate}
WEITER AUF FOLIE 398

View File

@ -29,7 +29,7 @@ Um den Zusammenhang von Bias"~Variance Decomposition und True Risk zu verstehen,
wird die Zerteilung im folgenden am Beispiel der Regression gezeigt. wird die Zerteilung im folgenden am Beispiel der Regression gezeigt.
\begin{itemize} \begin{itemize}
\item Die Eingangsdaten ergeben sich aus der realen Basisfunktion $f(\bm{x})$ und der zufälligen Störung $\epsilon$ \item Die Eingangsdaten ergeben sich aus der realen Basisfunktion $f(\bm{x})$ und der zufälligen Störung $\epsilon$
$$y=f(\bm{x}) + \epsilon,\qquad\epsilon\sim\mathcal{N}(0,\nomeq{variance})$$ $$y=f(\bm{x}) + \epsilon,\qquad\epsilon\sim\nomeq{gaussian_distribution}(0,\nomeq{variance})$$
\item Der Expected Loss $R(\hat{f}_{D_n})$ der auf den Daten $D_n$ trainierten Funktion $\hat{f}_{D_n}$ ist gegeben durch: \item Der Expected Loss $R(\hat{f}_{D_n})$ der auf den Daten $D_n$ trainierten Funktion $\hat{f}_{D_n}$ ist gegeben durch:
\begin{align} \label{eq:bias-variance_decomposition} \begin{align} \label{eq:bias-variance_decomposition}
R(\hat{f}_{D_n})&=\mathbb{E}_{D_n}\left[\mathbb{E}_{x,y}\left[(\hat{f}_{D_n}(\bm{x})-y)^2\right]\right]\\ R(\hat{f}_{D_n})&=\mathbb{E}_{D_n}\left[\mathbb{E}_{x,y}\left[(\hat{f}_{D_n}(\bm{x})-y)^2\right]\right]\\

View File

@ -0,0 +1,80 @@
\chapter{Gaussian Identities}%
\label{cha:Gaussian Identities}
Im folgenden werden 3 Gaussian Identities genauer betrachtet
\begin{enumerate}
\item Marginal Gaussian Distribution: die Gaußsche Normalverteilung von einem Faktor
\begin{equation} \label{eq:marginal_gaussian_distribution}
p(\bm x) = \nomeq{gaussian_distribution}(\bm x|\bm \mu_x,\nomeq{covariance}_{\bm x})
\end{equation}
\item Conditional Gaussian Distribution: die Gaußsche Normalverteilung des zweiten Faktors in Abhängigkeit vom ersten Faktor
($\bm F$: lineares Modell, dass $\bm x$ und $\bm y$ verknüpft)
\begin{equation} \label{eq:conditional_gaussian_distribution}
p(\bm y|\bm x) = \nomeq{gaussian_distribution}(\bm y|\bm F\bm x,\nomeq{covariance}_{\bm y})
\end{equation}
\item Joint Gaussian Distribution: Die Gaußsche Normalverteilung in Abhängigkeit von beiden Faktoren
\begin{equation} \label{eq:joint_gaussian_distribution}
p(\bm x,\bm y)
= \nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} |
\begin{bmatrix} \bm\mu_{\bm x} \\ \bm F\bm\mu_{\bm x} \end{bmatrix},
\begin{bmatrix}
\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm x}\bm F^T \\
\bm F\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm y} + \bm F\nomeq{covariance}_{\bm x} \bm F^T
\end{bmatrix} \right)
\end{equation}
\end{enumerate}
Es gibt zwei Richtungen,
in die umgewandelt werden kann:
\begin{enumerate}
\item Marginal und Conditional wird zu Joint:\\
($\bm F$: lineares Modell, dass $\bm x$ und $\bm y$ verknüpft)
\begin{equation} \label{eq:joint_gaussian_distribution_from_marginal_and_conditional}
\nomeq{gaussian_distribution}(\bm x|\bm\mu_{\bm x},\nomeq{covariance}_{\bm x})\nomeq{gaussian_distribution}(\bm y|\bm F\bm x,\nomeq{covariance}_{\bm y})
= \nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} |
\begin{bmatrix} \bm\mu_{\bm x} \\ \bm F\bm\mu_{\bm x} \end{bmatrix},
\begin{bmatrix}
\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm x}\bm F^T \\
\bm F\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm y} + \bm F\nomeq{covariance}_{\bm x} \bm F^T
\end{bmatrix} \right)
\end{equation}
\item Joint zu Marginal und Conditional:\\
($C$ ist wieder eine Matrix, die eine lineare Relation zwischen $x$ und $y$ herstellt)
\begin{equation} \label{eq:marginal_and_conditional_gaussian_distribution_from_joint}
\nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} |
\begin{bmatrix} \bm\mu_{\bm x} \\ \bm\mu_{\bm y} \end{bmatrix},
\begin{bmatrix} \nomeq{covariance}_{\bm x} & \bm C \\ \bm C^T & \nomeq{covariance}_{\bm y} \end{bmatrix} \right)
= \nomeq{gaussian_distribution}(\bm x|\bm\mu_{\bm x},\nomeq{covariance}_{\bm x})
\nomeq{gaussian_distribution}(\bm y| \bm\mu_{\bm y} + \bm C^T\nomeq{covariance}_{\bm x}^{-1}(\bm x - \bm\mu_{\bm x}),
\nomeq{covariance}_{\bm y} - \bm C^T\nomeq{covariance}_{\bm x}^{-1}\bm C)
\end{equation}
\end{enumerate}
\section{Gaussian Bayes Rules}%
\label{sec:Gaussian Bayes Rules}
Es gibt zwei bayesische Regeln für die Errechnung des Posteriors:\\
({\color{red}Herleitung Vorlesung 07 Folien 28 und 29})\\
Gegeben: Marginal (\cref{eq:marginal_gaussian_distribution}) und Conditional (\cref{eq:conditional_gaussian_distribution})
\begin{itemize}
\item Gaussian Bayes Rule 1:
\begin{itemize}
\item Mean: \tabto{2.2cm}$\bm\mu_{\bm x|\bm y}
= \bm\mu_{\bm x} + \nomeq{covariance}_{\bm x}\bm F^T(\sigma_{\bm y}^2\nomeq{identity_matrix} + \bm F\nomeq{covariance}_{\bm x}\bm F^T)^{-1}(\bm y - \bm F\bm\mu_{\bm x})$
\item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm x|\bm y}
= \nomeq{covariance}_{\bm x}-\nomeq{covariance}_{\bm x}\bm F^T(\sigma_{\bm y}^2\nomeq{identity_matrix}+\bm F\nomeq{covariance}_{\bm x}\bm F^T)^{-1}\bm F\nomeq{covariance}_{\bm x}$
\end{itemize}
\item Gaussian Bayes Rule 2:
\begin{itemize}
\item Mean: \tabto{2.2cm}$\bm\mu_{\bm x|\bm y}
= \bm\mu_{\bm x} + (\sigma_{\bm y}^2\nomeq{covariance}_{\bm x}^{-1} + \bm F^T\bm F)^{-1} \bm F^T (\bm y - \bm F\bm\mu_{\bm x})$
\item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm x|\bm y}
= \sigma_{\bm y}^2(\sigma_{\bm y}^2\nomeq{covariance}_{\bm x}^{-1} + \bm F^T\bm F)^{-1}$
\end{itemize}
\end{itemize}
\section{Gaussian Propagation}%
\label{sec:Gaussian Propagation}
Mit den Marginal und Conditional aus \cref{eq:marginal_gaussian_distribution} und \cref{eq:conditional_gaussian_distribution} ist es möglich den Conditional $p(\bm y)$ zu ermitteln:\\
({\color{red}Herleitung Vorlesung 07 Folie 31})
\begin{itemize}
\item Mean: \tabto{2.2cm}$\bm\mu_{\bm y} = \bm F\bm\mu_{\bm x}$
\item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm y} = \sigma_{\bm y}^2\nomeq{identity_matrix} + \bm F\nomeq{covariance}_{\bm x}\bm F^T$
\end{itemize}

View File

@ -137,7 +137,7 @@ Diese Verteilung kann mithilfe eines 1-hot-encoding-Vektor $\bm{h}_c = \begin{ca
\end{wrapfigure} \end{wrapfigure}
Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert. Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert.
\begin{equation} \label{eq:gaussian_distribution} \begin{equation} \label{eq:gaussian_distribution}
\nomeq{probability_mass_function}=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\} \nomeq{probability_mass_function}=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
\end{equation} \end{equation}
\vspace{10mm} \vspace{10mm}
@ -154,7 +154,7 @@ Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R
Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$). Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$).
Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert: Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert:
\begin{equation} \label{eq:multivariate_gaussian_distribution} \begin{equation} \label{eq:multivariate_gaussian_distribution}
p(\bm{x}) =\mathcal{N}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance}) p(\bm{x}) =\nomeq{gaussian_distribution}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance})
= \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\} = \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\}
\end{equation} \end{equation}