diff --git a/Glossary.tex b/Glossary.tex index db15927..0e66f19 100644 --- a/Glossary.tex +++ b/Glossary.tex @@ -130,6 +130,7 @@ \newnom{margin}{Margin}{\rho}{} \newnom{slack-variable}{Slack-Variable}{\xi_i}{} \newnom{parameter_vector}{Parameter Vector}{\bm{\theta}}{} +\newnom{gaussian_distribution}{Gaußsche Normalverteilung}{\mathcal{N}}{} \shorthandoff{"} \makeglossaries diff --git a/ML_Zusammenfassung.tex b/ML_Zusammenfassung.tex index 159bca2..5c26169 100644 --- a/ML_Zusammenfassung.tex +++ b/ML_Zusammenfassung.tex @@ -31,14 +31,6 @@ \part{Einleitung} \input{chapters/Einleitung.tex} - \part{Mathematische Grundlagen} - \label{part:Mathematische Grundlagen} - \input{chapters/Mathematische_Grundlagen/Lineare_Algebra.tex} - \input{chapters/Mathematische_Grundlagen/Probability_Theory.tex} - \input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex} - \input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex} - \input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex} - \part{Classical Supervised Learning} \label{part:Classical Supervised Learning} \input{chapters/Classical_Supervised_Learning/Linear_Regression.tex} @@ -46,32 +38,36 @@ \input{chapters/Classical_Supervised_Learning/Model_Selection.tex} \input{chapters/Classical_Supervised_Learning/k-Nearest_Neighbors.tex} \input{chapters/Classical_Supervised_Learning/Trees_and_Forests.tex} - \clearpage \part{Kernel Methods} \label{part:Kernel Methods} \input{chapters/Kernel_Methods/Kernel-Regression.tex} \input{chapters/Kernel_Methods/Support_Vector_Machines.tex} - \clearpage \part{Bayesian Learning} \label{part:Bayesian Learning} \input{chapters/Bayesian_Learning/Bayesian_Learning.tex} \input{chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex} - \clearpage \part{Neural Networks} \label{part:Neural Networks} \input{chapters/Neural_Networks/Neural_Networks_and_Backpropagation.tex} \input{chapters/Neural_Networks/CNNs_and_LSTMs.tex} - \clearpage \part{Classical Unsupervised Learning} \label{part:Classical Unsupervised Learning} \input{chapters/Classical_Unsupervised_Learning/Dimensionality_Reduction_and_Clustering.tex} \input{chapters/Classical_Unsupervised_Learning/Density_Estimation_and_Mixture_Models.tex} \input{chapters/Classical_Unsupervised_Learning/Variational_Auto-Encoders.tex} - \clearpage + + \part{Mathematische Grundlagen} + \label{part:Mathematische Grundlagen} + \input{chapters/Mathematische_Grundlagen/Lineare_Algebra.tex} + \input{chapters/Mathematische_Grundlagen/Probability_Theory.tex} + \input{chapters/Mathematische_Grundlagen/Kernel_Basics.tex} + \input{chapters/Mathematische_Grundlagen/Sub-Gradients.tex} + \input{chapters/Mathematische_Grundlagen/Constraint_Optimization.tex} + \input{chapters/Mathematische_Grundlagen/Gaussian_Identities.tex} % }}} % \input{Appendix.tex} diff --git a/Packages.tex b/Packages.tex index 3aca7e1..a3d3b6c 100644 --- a/Packages.tex +++ b/Packages.tex @@ -165,3 +165,8 @@ rightsub = \grq% %-------------------- \usepackage{algorithm} \usepackage{algpseudocode} + +%-------------------- +% quick and dirty tabstops +%-------------------- +\usepackage{tabto} diff --git a/chapters/Bayesian_Learning/Bayesian_Learning.tex b/chapters/Bayesian_Learning/Bayesian_Learning.tex index 034083a..e0621b8 100644 --- a/chapters/Bayesian_Learning/Bayesian_Learning.tex +++ b/chapters/Bayesian_Learning/Bayesian_Learning.tex @@ -36,7 +36,7 @@ Indem man \nomsym{mean} und $\sigma$ als \nomf{parameter_vector} betrachtet, kann die \nameref{sub:Gaussian Distribution} in die zuvor gezeigte Form gebracht werden: \begin{equation} \label{eq:Gaussian_Distribution_parameter_vector} p(x|\nomeq{parameter_vector}=\{\nomeq{mean},\sigma\}) - =\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\} + =\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\} \end{equation} Hieraus ergibt sich für einen ganzen Datensatz $\bm X$: \begin{equation} \label{eq:gaussian_distribution_dataset} @@ -53,8 +53,8 @@ Da wir nun sowohl die Likelihood als auch die Posterior Funktion zur Verfügung lässt sich die Marginal Likelihood errechnen: \begin{align} \label{eq:gaussian_distribution_marginal_likelihood} \underbrace{p(x^*|\bm X)}_{\text{marginal likelihood}} &= \int \underbrace{p(x^*|\nomeq{mean})}_{likelihood}\underbrace{p(\nomeq{mean}|\bm X)}_{\text{posterior}}d\nomeq{mean}\\ - &= \int \mathcal N(x^*|\nomeq{mean},\sigma)\mathcal N(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\ - &= \mathcal N(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2) + &= \int \nomeq{gaussian_distribution}(x^*|\nomeq{mean},\sigma)\nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_n,\sigma_N)d\nomeq{mean}\\ + &= \nomeq{gaussian_distribution}(x^*|\nomeq{mean}_{x^*},\sigma_{x^*}^2) \end{align} Hierbei sind $\nomeq{mean}_{x^*}$ und $\sigma_{x^*}^2$ gegeben durch: \begin{itemize} @@ -69,7 +69,7 @@ dass die \nomf{variance} bekannt ist, ergibt sich für den Prior der \nameref{sub:Gaussian Distribution}: \begin{equation} \label{eq:gaussian_distribution_prior} - p(\nomeq{mean}) = \mathcal N(\nomeq{mean}|\nomeq{mean}_0,\sigma_0) + p(\nomeq{mean}) = \nomeq{gaussian_distribution}(\nomeq{mean}|\nomeq{mean}_0,\sigma_0) = \frac{1}{\sqrt{2\pi\sigma_0^2}} \exp\left\{-\frac{(\nomeq{mean}-\nomeq{mean}_0)^2}{2\sigma_0^2}\right\} \end{equation} Hierbei sind $\nomeq{mean}_0$ und $\sigma_0$ die a-priori Vermutungen. @@ -93,7 +93,7 @@ Der erste Schritt ist es die Funktion in die kanonische Schreibweise zu überfü \Rightarrow &a=\left(\frac{N}{\nomeq{variance}} + \frac{1}{\sigma_0^2}\right),\\ &b = \left(\frac{\sum_i x_i}{\nomeq{variance}} + \frac{\mu_0}{\sigma_0^2}\right) \end{align} -Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \mathcal N(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass: +Für die Gaußsche Normalverteilung $p(\nomeq{mean}|\bm X) = \nomeq{gaussian_distribution}(\nomeq{mean}|\mu_N,\sigma_N^2)$ ist bekannt, dass: \begin{itemize} \item $\nomeq{mean}_N = a^{-1}b$ \item $\sigma_N^2 = a^{-1}$ @@ -108,7 +108,7 @@ Daher ergibt sich: \subsection{Conjugate Priors}% \label{sub:Conjugate Priors} -Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\mathcal N)$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}. +Wenn die Posterior Probability Distribution $p(\nomeq{parameter_vector}|\nomeq{gaussian_distribution})$ zu der gleichen Distribution-Klasse gehört wie die Prior Probability Distribuition $p(\nomeq{parameter_vector})$ spricht man von einem \say{conjugate prior}. Die Gaußsche Wahrscheinlichkeitsverteilung fällt in diesen Bereich, da sowohl Posterior als auch Prior durch eine gaußsche Normalverteilung beschrieben werden. @@ -132,5 +132,8 @@ Bei der \say{maximum a-posteriori solution} handelt es sich um eine Vereinfachun \subsection{Anwendungsbeispiel: Regression}% \label{sub:MAP:Anwendungsbeispiel: Regression} +Läuft am Ende auf \nameref{sub:Ridge Regression} hinaus. +Soll den Zusammenhang beider Methoden zeigen. {\color{red} siehe Vorlesung 07 Folien 20-22} + diff --git a/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex b/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex index c21633c..6859593 100644 --- a/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex +++ b/chapters/Bayesian_Learning/Bayesian_Regression_Algorithms.tex @@ -1,4 +1,27 @@ \chapter{Bayesian Regression Algorithms}% \label{cha:Bayesian Regression Algorithms} +\section{Bayesian Linear Regression}% +\label{sec:Bayesian Linear Regression} +Für die Bayesian Linear Regression ist es möglich den Posterior und die Vorhersage ohne die Nutzung von Approximationen zu berechnen. +Hierzu werden die folgenden Komponenten benötigt: +\begin{itemize} + \item Likelihood (einzelnes Sample): $p(y|\bm x,\bm w) = \nomeq{gaussian_distribution}(y|\bm w^T \nomeq{vector_valued_function},\nomeq{variance})$ + \item Likelihood (ganzer Datensatz): $p(\bm y|\bm X,\bm w) = \prod_i \nomeq{gaussian_distribution}(y_i|\bm w^T \bm\phi(\bm x_i), \nomeq{variance})$ + \item Gaussian Prior: $p(\bm w) = \nomeq{gaussian_distribution}(\bm w|0,\nomeq{regularization_factor}^{-1}\nomeq{identity_matrix})$ +\end{itemize} +Anschließend erfolgt die Regression nach den Schritten des \nameref{cha:Bayesian Learning}: +\begin{enumerate} + \item Posterior errechnen: + \begin{equation} \label{eq:bayesion_linear_regression_posterior} + p(\bm w|\bm X,\bm y) = \frac{p(\bm y|\bm X,\bm w)p(\bm w)}{p(\bm y|\bm X)} + = \frac{p(\bm y|\bm X,\bm w)p(\bm w)}{\int p(\bm y|\bm X,\bm w)p(\bm w)d\bm w} + \end{equation} + \item Predictive Distribution errechnen: + \begin{equation} \label{eq:bayesion_linear_regression_predictive_distribution} + p(y^*|\bm x^*,\bm X,\bm y) = \int p(y^*|\bm w,\bm x^*)p(\bm w|\bm X,\bm y)d\bm w + \end{equation} +\end{enumerate} + +WEITER AUF FOLIE 398 diff --git a/chapters/Classical_Supervised_Learning/Model_Selection.tex b/chapters/Classical_Supervised_Learning/Model_Selection.tex index 6a74b74..c473203 100644 --- a/chapters/Classical_Supervised_Learning/Model_Selection.tex +++ b/chapters/Classical_Supervised_Learning/Model_Selection.tex @@ -29,7 +29,7 @@ Um den Zusammenhang von Bias"~Variance Decomposition und True Risk zu verstehen, wird die Zerteilung im folgenden am Beispiel der Regression gezeigt. \begin{itemize} \item Die Eingangsdaten ergeben sich aus der realen Basisfunktion $f(\bm{x})$ und der zufälligen Störung $\epsilon$ - $$y=f(\bm{x}) + \epsilon,\qquad\epsilon\sim\mathcal{N}(0,\nomeq{variance})$$ + $$y=f(\bm{x}) + \epsilon,\qquad\epsilon\sim\nomeq{gaussian_distribution}(0,\nomeq{variance})$$ \item Der Expected Loss $R(\hat{f}_{D_n})$ der auf den Daten $D_n$ trainierten Funktion $\hat{f}_{D_n}$ ist gegeben durch: \begin{align} \label{eq:bias-variance_decomposition} R(\hat{f}_{D_n})&=\mathbb{E}_{D_n}\left[\mathbb{E}_{x,y}\left[(\hat{f}_{D_n}(\bm{x})-y)^2\right]\right]\\ diff --git a/chapters/Mathematische_Grundlagen/Gaussian_Identities.tex b/chapters/Mathematische_Grundlagen/Gaussian_Identities.tex new file mode 100644 index 0000000..cfa894d --- /dev/null +++ b/chapters/Mathematische_Grundlagen/Gaussian_Identities.tex @@ -0,0 +1,80 @@ +\chapter{Gaussian Identities}% +\label{cha:Gaussian Identities} +Im folgenden werden 3 Gaussian Identities genauer betrachtet +\begin{enumerate} + \item Marginal Gaussian Distribution: die Gaußsche Normalverteilung von einem Faktor + \begin{equation} \label{eq:marginal_gaussian_distribution} + p(\bm x) = \nomeq{gaussian_distribution}(\bm x|\bm \mu_x,\nomeq{covariance}_{\bm x}) + \end{equation} + \item Conditional Gaussian Distribution: die Gaußsche Normalverteilung des zweiten Faktors in Abhängigkeit vom ersten Faktor + ($\bm F$: lineares Modell, dass $\bm x$ und $\bm y$ verknüpft) + \begin{equation} \label{eq:conditional_gaussian_distribution} + p(\bm y|\bm x) = \nomeq{gaussian_distribution}(\bm y|\bm F\bm x,\nomeq{covariance}_{\bm y}) + \end{equation} + \item Joint Gaussian Distribution: Die Gaußsche Normalverteilung in Abhängigkeit von beiden Faktoren + \begin{equation} \label{eq:joint_gaussian_distribution} + p(\bm x,\bm y) + = \nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} | + \begin{bmatrix} \bm\mu_{\bm x} \\ \bm F\bm\mu_{\bm x} \end{bmatrix}, + \begin{bmatrix} + \nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm x}\bm F^T \\ + \bm F\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm y} + \bm F\nomeq{covariance}_{\bm x} \bm F^T + \end{bmatrix} \right) + \end{equation} +\end{enumerate} +Es gibt zwei Richtungen, +in die umgewandelt werden kann: +\begin{enumerate} + \item Marginal und Conditional wird zu Joint:\\ + ($\bm F$: lineares Modell, dass $\bm x$ und $\bm y$ verknüpft) + \begin{equation} \label{eq:joint_gaussian_distribution_from_marginal_and_conditional} + \nomeq{gaussian_distribution}(\bm x|\bm\mu_{\bm x},\nomeq{covariance}_{\bm x})\nomeq{gaussian_distribution}(\bm y|\bm F\bm x,\nomeq{covariance}_{\bm y}) + = \nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} | + \begin{bmatrix} \bm\mu_{\bm x} \\ \bm F\bm\mu_{\bm x} \end{bmatrix}, + \begin{bmatrix} + \nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm x}\bm F^T \\ + \bm F\nomeq{covariance}_{\bm x} & \nomeq{covariance}_{\bm y} + \bm F\nomeq{covariance}_{\bm x} \bm F^T + \end{bmatrix} \right) + \end{equation} + \item Joint zu Marginal und Conditional:\\ + ($C$ ist wieder eine Matrix, die eine lineare Relation zwischen $x$ und $y$ herstellt) + \begin{equation} \label{eq:marginal_and_conditional_gaussian_distribution_from_joint} + \nomeq{gaussian_distribution}\left( \begin{bmatrix}\bm x\\ \bm y \end{bmatrix} | + \begin{bmatrix} \bm\mu_{\bm x} \\ \bm\mu_{\bm y} \end{bmatrix}, + \begin{bmatrix} \nomeq{covariance}_{\bm x} & \bm C \\ \bm C^T & \nomeq{covariance}_{\bm y} \end{bmatrix} \right) + = \nomeq{gaussian_distribution}(\bm x|\bm\mu_{\bm x},\nomeq{covariance}_{\bm x}) + \nomeq{gaussian_distribution}(\bm y| \bm\mu_{\bm y} + \bm C^T\nomeq{covariance}_{\bm x}^{-1}(\bm x - \bm\mu_{\bm x}), + \nomeq{covariance}_{\bm y} - \bm C^T\nomeq{covariance}_{\bm x}^{-1}\bm C) + \end{equation} +\end{enumerate} + +\section{Gaussian Bayes Rules}% +\label{sec:Gaussian Bayes Rules} +Es gibt zwei bayesische Regeln für die Errechnung des Posteriors:\\ +({\color{red}Herleitung Vorlesung 07 Folien 28 und 29})\\ +Gegeben: Marginal (\cref{eq:marginal_gaussian_distribution}) und Conditional (\cref{eq:conditional_gaussian_distribution}) +\begin{itemize} + \item Gaussian Bayes Rule 1: + \begin{itemize} + \item Mean: \tabto{2.2cm}$\bm\mu_{\bm x|\bm y} + = \bm\mu_{\bm x} + \nomeq{covariance}_{\bm x}\bm F^T(\sigma_{\bm y}^2\nomeq{identity_matrix} + \bm F\nomeq{covariance}_{\bm x}\bm F^T)^{-1}(\bm y - \bm F\bm\mu_{\bm x})$ + \item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm x|\bm y} + = \nomeq{covariance}_{\bm x}-\nomeq{covariance}_{\bm x}\bm F^T(\sigma_{\bm y}^2\nomeq{identity_matrix}+\bm F\nomeq{covariance}_{\bm x}\bm F^T)^{-1}\bm F\nomeq{covariance}_{\bm x}$ + \end{itemize} + \item Gaussian Bayes Rule 2: + \begin{itemize} + \item Mean: \tabto{2.2cm}$\bm\mu_{\bm x|\bm y} + = \bm\mu_{\bm x} + (\sigma_{\bm y}^2\nomeq{covariance}_{\bm x}^{-1} + \bm F^T\bm F)^{-1} \bm F^T (\bm y - \bm F\bm\mu_{\bm x})$ + \item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm x|\bm y} + = \sigma_{\bm y}^2(\sigma_{\bm y}^2\nomeq{covariance}_{\bm x}^{-1} + \bm F^T\bm F)^{-1}$ + \end{itemize} +\end{itemize} + +\section{Gaussian Propagation}% +\label{sec:Gaussian Propagation} +Mit den Marginal und Conditional aus \cref{eq:marginal_gaussian_distribution} und \cref{eq:conditional_gaussian_distribution} ist es möglich den Conditional $p(\bm y)$ zu ermitteln:\\ +({\color{red}Herleitung Vorlesung 07 Folie 31}) +\begin{itemize} + \item Mean: \tabto{2.2cm}$\bm\mu_{\bm y} = \bm F\bm\mu_{\bm x}$ + \item Covariance:\tabto{2.2cm} $\nomeq{covariance}_{\bm y} = \sigma_{\bm y}^2\nomeq{identity_matrix} + \bm F\nomeq{covariance}_{\bm x}\bm F^T$ +\end{itemize} diff --git a/chapters/Mathematische_Grundlagen/Probability_Theory.tex b/chapters/Mathematische_Grundlagen/Probability_Theory.tex index b0a8665..2eb32e2 100644 --- a/chapters/Mathematische_Grundlagen/Probability_Theory.tex +++ b/chapters/Mathematische_Grundlagen/Probability_Theory.tex @@ -137,7 +137,7 @@ Diese Verteilung kann mithilfe eines 1-hot-encoding-Vektor $\bm{h}_c = \begin{ca \end{wrapfigure} Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert. \begin{equation} \label{eq:gaussian_distribution} - \nomeq{probability_mass_function}=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\} + \nomeq{probability_mass_function}=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\} \end{equation} \vspace{10mm} @@ -154,7 +154,7 @@ Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$). Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert: \begin{equation} \label{eq:multivariate_gaussian_distribution} - p(\bm{x}) =\mathcal{N}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance}) + p(\bm{x}) =\nomeq{gaussian_distribution}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance}) = \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\} \end{equation}