diff --git a/Glossary.tex b/Glossary.tex index 262dfea..27b8cc6 100644 --- a/Glossary.tex +++ b/Glossary.tex @@ -34,12 +34,41 @@ } } +\newglossaryentry{marginal}{ + name = Randverteilung (marginal distribution), + description = { + die einzelnen Wahrscheinlichkeitsverteilungen, + aus denen sich eine mehrdimensionale Wahrscheinlichkeitsverteilung zusammensetzt. + z.B. sind $p(x)$ und $p(y)$ Randverteilungen von $p(x,y)$ + } +} + +\newglossaryentry{conditional}{ + name = bedingte Verteilung (conditional distribution), + description={ + Eine Wahrscheinlichkeitsverteilung, + bei der einer oder mehrere Bedingungen festgelegt sind. + z.B. ist $p(x|y)$ eine bedingte Verteilung von $X$ gegeben $Y=y$ + } +} + +\newglossaryentry{identically_independently_distributed}{ + name=identically independently distributed, + description={ + \say{Unabhängig und identisch verteilte Zufallsvariablen besitzen alle dieselbe Verteilung, + nehmen also mit gleicher Wahrscheinlichkeit gleiche Werte an, + beeinflussen sich dabei aber nicht.} (\url{https://de.wikipedia.org/wiki/Unabh\%C3\%A4ngig_und_identisch_verteilte_Zufallsvariablen}) + } +} + %-------------------- %acronyms %-------------------- \setabbreviationstyle[acronym]{long-short} \newacronym{FRM}{FRM}{\gls{full_rank_matrix}} +\newacronym{MLE}{MLE}{Maximum Likelihood Estimation} +\newacronym{iid}{iid}{\gls{identically_independently_distributed}} %-------------------- %nomenclature @@ -60,8 +89,8 @@ } } %use nomenclature entry (name + symbol) nomF=>First letter upper case -\newcommand{\nomf}[1]{\glsentryname{#1} \texorpdfstring{\glslink{#1}{\boldmath\ensuremath{\glsentrysymbol{#1}}}}{}\xspace} -\newcommand{\nomF}[1]{\Glsentryname{#1} \texorpdfstring{\glslink{#1}{\boldmath\ensuremath{\glsentrysymbol{#1}}}}{}\xspace} +\newcommand{\nomf}[1]{\glsentryname{#1} \texorpdfstring{\glslink{#1}{\ensuremath{\glsentrysymbol{#1}}}}{}\xspace} +\newcommand{\nomF}[1]{\Glsentryname{#1} \texorpdfstring{\glslink{#1}{\ensuremath{\glsentrysymbol{#1}}}}{}\xspace} %use nomenclature entry (name) nomS=>First letter upper case \newcommand{\noms}[1]{\glsentryname{#1}\xspace} \newcommand{\nomS}[1]{\Glsentryname{#1}\xspace} @@ -75,8 +104,11 @@ \newnom{vector_valued_function}{vektorwertige Funktion}{\phi(\bm{x})}{vektorwertige Funktion der des Eingangsvektor $\bm{x}$}{} \newnom{regularization_factor}{Regularisierungsfaktor}{\lambda}{}{} \newnom{identity_matrix}{Identitätsmatrix}{\bm{I}}{$\begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{bmatrix}$}{} -\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion} - +\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion}{} +\newnom{mean}{arithmetisches Mittel}{\mu}{}{} +\newnom{mean-vector}{Mittelwerts-Vektor}{\bm{\mu}}{}{} +\newnom{covariance}{Kovarianz-Matrix}{\bm{\Sigma}}{}{} +\newnom{variance}{Varianz}{\sigma^2}{$\mathbb{E}_p[(X-\nomeq{mean})$]}{} \shorthandoff{"} \makeglossaries diff --git a/Packages.tex b/Packages.tex index f9efc5b..9ad81f1 100644 --- a/Packages.tex +++ b/Packages.tex @@ -114,6 +114,7 @@ rightsub = \grq% \usepackage{amsmath} %special symbols \usepackage{fontawesome} +\usepackage{amssymb} %si units \usepackage[output-decimal-marker={,}]{siunitx} %referencing equations diff --git a/chapters/Mathematische_Grundlagen/Probability_Theory.tex b/chapters/Mathematische_Grundlagen/Probability_Theory.tex index 1c9046f..74a977d 100644 --- a/chapters/Mathematische_Grundlagen/Probability_Theory.tex +++ b/chapters/Mathematische_Grundlagen/Probability_Theory.tex @@ -58,4 +58,162 @@ Die Regel von Bayes ist eine der wichtigsten Regeln der Wahrscheinlichkeitstheor p(x|y) = \dfrac{p(y|x)p(x)}{p(y)} = \dfrac{p(y|x)p(x)}{\sum_{x'}p(y|x')p(x')} \end{equation} -Weiter auf Seite 114 +\section{Expectations}% +\label{sec:Expectations} +Der Erwartungswert einer Funtion $f(x)$ lässt sich in Kombination mit der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} errechnen: +\begin{align} \label{eq:expactations} + \mathbb{E}_p[f(x)] &= \int p(x)f(x) dx\\ + \mathbb{E}_p[f(x)|Y=y] &= \int p(x|y)f(x) dx\\ + \mathbb{E}_p[f(x)] &= \int p(y)\mathbb{E}[f(x)|Y=y] dy +\end{align} +\subsection{Monte-carlo estimation}% +\label{sub:Monte-carlo estimation} +Eine Approximation des Erwartungswertes lässt sich darüber erreichen, +dass eine Menge von $N$ Samples $x_i$ der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} gezogen werden. +Diese Approximation wird als Monte-Carlo-Abschätzung bezeichnet. +Hierbei wird die Approximation genauer, +je mehr Samples genommen werden: +\begin{equation} \label{eq:monte-carlo_estimation} + \mathbb{E}_p[f(x)] = \int p(x)f(x) dx \approx \dfrac{1}{N}\sum_{x_i\sim p(x)}f(x_i) +\end{equation} + +\section{Moments}% +\label{sec:Moments} +In der Stochastik lassen sich Momente für Wahrscheinlichkeitsdichtefunktionen errechnen +\paragraph{erstes Moment}% +\label{par:erstes Moment} +Das erste Moment wird als \nomf{mean} der Wahrscheinlichkeitsdichtefunktion bezeichnet +\begin{align} \label{eq:1st_moment} + \nomeq{mean} &= \mathbb{E}_p[x]\\ + \nomeq{mean-vector} &= \mathbb{E}_p[\bm{x}] +\end{align} +\paragraph{zweites Moment}% +\label{par:zweites Moment} +Das zweite Moment errechnet sich durch: +\begin{align} \label{eq:second_moment} +M_2 &= \mathbb{E}_p[x^2]\\ + \bm{M}_2 &= \mathbb{E}_p[\bm{xx}^T] +\end{align} +Wobei die das zweite \textbf{zentrale} Moment die \nomf{variance} bzw. \nomf{covariance} der Wahrscheinlichkeitsdichtefunktion bildet: +\begin{align} \label{eq:covariance} + \nomeq{variance} &= \mathbb{E}_p[(X-\nomeq{mean})^2]\\ + \nomeq{covariance} &= \mathbb{E}_p[(\bm{x}-\nomeq{mean-vector})(\bm{x}-\nomeq{mean-vector})^T] +\end{align} + +\section{Distributions}% +\label{sec:Distributions} +\subsection{Bernoulli Distribution}% +\label{sub:Bernoulli Distribution} +\begin{itemize} + \item Wert kann nur wahr oder falsch sein (wie Münzwurf): $X\in\{0,1\}$ + \item \noms{mean} gibt an, mit welcher Wahrscheinlichkeit der Wert wahr ist:\\ $p(X=1)=\nomeq{mean}$ + \item Die Wahrscheinlichkeitsdichtefunktion ist durch die Bernoulli-Distribution gegeben: + \begin{equation} \label{eq:bernoulli_distribution} + \nomeq{probability_mass_function} = \nomeq{mean}^x(1-\nomeq{mean})^{1-x} + \end{equation} +\end{itemize} + +\subsection{Multinomial\slash\,Categorical Dristribution}% +\label{sub:Multinomial/Categorical Dristribution} +\begin{itemize} + \item $K$ mögliche Werte (wie Würfel): $C\in\{1,\dots,K\}$ + \item spezifische Wahrscheinlichkeiten für jeden möglichen Wert:\\ + $p(C=k)=\mu_k,\qquad\mu_k\ge0,\qquad\sum_{k=1}^K\mu_k=1$ +\end{itemize} +Diese Verteilung kann mithilfe eines 1-hot-encoding-Vektor $\bm{h}_c = \begin{cases} 1 & \text{falls }c=k\\0 & \text{sonst} \end{cases}$ wie folgt aufgeschrieben werden: +\begin{equation} \label{eq:multinomial_distribution} + p(c) = \prod_{k=1}^K \mu_k^{\bm{h}_{c,k}} +\end{equation} + +\subsection{Gaussian Distribution}% +\label{sub:Gaussian Distribution} +\begin{wrapfigure}{r}{.4\textwidth} + \vspace*{-15mm} + \centering + \includegraphics[width=.8\linewidth]{gaussian_distribution.png} + \caption{Beispiele von Gaußschen Normalverteilungen}% + \label{fig:gaussian_distribution} + \vspace*{-15mm} +\end{wrapfigure} +Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert. +\begin{equation} \label{eq:gaussian_distribution} + \nomeq{probability_mass_function}=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\} +\end{equation} +\vspace{10mm} + +\subsubsection{Multivariate Gaussian Distribution}% +\label{ssub:Multivariate Gaussian Distribution} +\begin{wrapfigure}{r}{.4\textwidth} + \vspace*{-20mm} + \centering + \includegraphics[width=0.8\linewidth]{multivariate_gaussian_distribution.png} + \caption{multivariate Gaußsche Verteilung}% + \label{fig:multivariate_gaussian_distribution} + \vspace*{-20mm} +\end{wrapfigure} +Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$). +Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert: +\begin{equation} \label{eq:multivariate_gaussian_distribution} + p(\bm{x}) =\mathcal{N}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance}) + = \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\} +\end{equation} + +\subsubsection{Eigenschaften von Gaußschen Verteilungen}% +\label{ssub:Eigenschaften von Gaußschen Verteilungen} +\begin{itemize} + \item jede \gls{marginal} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung + \item jede \gls{conditional} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung + \item das Produkt von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung + \item die Summe von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung +\end{itemize} + +\section{\glsxtrfull{MLE}}% +\label{sec:MLE} +Für einen gegebenen Trainingsdatensatz $D=\{(x_i,y_i)\}_{i=1\dots N}$ von unabhängig und identisch verteilten Zufallsvariablen (\gls{iid}) +auf Basis einer Wahrscheinlichkeitsdichtefunktion $p_{\text{data}}$ soll ein $\bm{\theta}$ gefunden werden, +sodass eine durch $\bm{\theta}\in\bm{\Theta}$ parametrisierte Wahrscheinlichkeitsdichtefunktion $p_{\bm{\theta}}(x,y)$ entsteht, +welche die Trainingsdaten möglichst passend approximiert. + +Die Güte von $\bm{\theta}$ ist für einen einzelnen Datenpunkt gegeben durch: +\begin{equation} \label{eq:fittness_theta_single_data_point} + \text{lik}(\bm{\theta};x_i,y_i) = p_{\bm{\theta}}(x_i,y_i) +\end{equation} +In Bezug auf den Gesamten Datensatz bedeutet dies: +\begin{equation} \label{eq:fittness_theta_whole_dataset} + \text{lik}(\bm{\theta};D) = \prod_i p_{\bm{\theta}}(x_i,y_i) +\end{equation} +Und die Log-likelihood ist definiert durch: +\begin{equation} \label{eq:fittness_theta_whole_dataset} + \log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(x_i,y_i) +\end{equation} +Dieser wird zumeist für die Optimierung vewendet, da +\begin{itemize} + \item der Logarithmus das gleiche Optimum besitzt + \item sich eine Summe leichter optimieren lässt als ein Produkt + \item der Logarithmus die Exponentialfunktion ausgleicht, die Bestandteil der meisten Wahrscheinlichkeitsverteilungen ist +\end{itemize} + +In diesem Zusammenhang berechnet sich die \gls{MLE} durch: +\begin{equation} \label{eq:MLE} + \bm{\theta}_{\text{ML}} = \arg\max_{\bm{\theta}}\log\text{lik}(\bm{\theta};D) +\end{equation} + +\subsection{Beispiel: Gaußsche Normalverteilung}% +\label{sub:Beispiel: Gaußsche Normalverteilung} + Gegeben die gaußsche Dichtefunktion + \begin{equation} \label{eq:gaussian_density_function} + \log\text{lik}(\bm{\theta};D)=-N\log\sqrt{2\pi\nomeq{variance}} - \sum_i\dfrac{(x_i-\nomeq{mean})^2}{2\nomeq{variance}} + \end{equation} + Kann \nomsym{mean} bestimmt werden: + \begin{align} \label{eq:MLE_solution_for_mean} + \dfrac{\partial\log\text{lik}}{\partial N} = -\sum_i\dfrac{2(x_i-\nomeq{mean})(-1)}{2} &= 0\\ + -N\nomeq{mean} + \sum_i x_i &= 0\\ + \nomeq{mean} &= \dfrac{\sum_i x_i}{N} + \end{align} + +\subsection{\glsxtrshort{MLE}: conditional log-likelihood}% +\label{sub:MLE: conditional log-likelihood} + \begin{equation} \label{eq:MLE:conditional} + \log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i) + \end{equation} + {\color{red} Erklärung: siehe Folien 21 und 22 in Vorlesung 2} diff --git a/images/gaussian_distribution.png b/images/gaussian_distribution.png new file mode 100644 index 0000000..a33582f Binary files /dev/null and b/images/gaussian_distribution.png differ diff --git a/images/multivariate_gaussian_distribution.png b/images/multivariate_gaussian_distribution.png new file mode 100644 index 0000000..c96a756 Binary files /dev/null and b/images/multivariate_gaussian_distribution.png differ