Mathegrundlagen der 2. Vorlesung hinzugefügt.

2022-02-11 00:02:27 +01:00 · 2022-02-11 00:02:27 +01:00 · 089c79b358
commit 089c79b358
parent f679f8b3b6
5 changed files with 196 additions and 5 deletions
--- a/Glossary.tex
+++ b/Glossary.tex
@ -34,12 +34,41 @@
    }
 }

+\newglossaryentry{marginal}{
+    name = Randverteilung (marginal distribution),
+    description = {
+        die einzelnen Wahrscheinlichkeitsverteilungen,
+        aus denen sich eine mehrdimensionale Wahrscheinlichkeitsverteilung zusammensetzt.
+        z.B. sind $p(x)$ und $p(y)$ Randverteilungen von $p(x,y)$
+    }
+}
+
+\newglossaryentry{conditional}{
+    name = bedingte Verteilung (conditional distribution),
+    description={
+        Eine Wahrscheinlichkeitsverteilung,
+        bei der einer oder mehrere Bedingungen festgelegt sind.
+        z.B. ist $p(x|y)$ eine bedingte Verteilung von $X$ gegeben $Y=y$
+    }
+}
+
+\newglossaryentry{identically_independently_distributed}{
+    name=identically independently distributed,
+    description={
+        \say{Unabhängig und identisch verteilte Zufallsvariablen besitzen alle dieselbe Verteilung,
+        nehmen also mit gleicher Wahrscheinlichkeit gleiche Werte an,
+        beeinflussen sich dabei aber nicht.} (\url{https://de.wikipedia.org/wiki/Unabh\%C3\%A4ngig_und_identisch_verteilte_Zufallsvariablen})
+    }
+}
+
 %--------------------
 %acronyms
 %--------------------
 \setabbreviationstyle[acronym]{long-short}

 \newacronym{FRM}{FRM}{\gls{full_rank_matrix}}
+\newacronym{MLE}{MLE}{Maximum Likelihood Estimation}
+\newacronym{iid}{iid}{\gls{identically_independently_distributed}}

 %--------------------
 %nomenclature
@ -60,8 +89,8 @@
    }
 }
 %use nomenclature entry (name + symbol) nomF=>First letter upper case
-\newcommand{\nomf}[1]{\glsentryname{#1} \texorpdfstring{\glslink{#1}{\boldmath\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
-\newcommand{\nomF}[1]{\Glsentryname{#1} \texorpdfstring{\glslink{#1}{\boldmath\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
+\newcommand{\nomf}[1]{\glsentryname{#1} \texorpdfstring{\glslink{#1}{\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
+\newcommand{\nomF}[1]{\Glsentryname{#1} \texorpdfstring{\glslink{#1}{\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
 %use nomenclature entry (name) nomS=>First letter upper case
 \newcommand{\noms}[1]{\glsentryname{#1}\xspace}
 \newcommand{\nomS}[1]{\Glsentryname{#1}\xspace}
@ -75,8 +104,11 @@
 \newnom{vector_valued_function}{vektorwertige Funktion}{\phi(\bm{x})}{vektorwertige Funktion der des Eingangsvektor $\bm{x}$}{}
 \newnom{regularization_factor}{Regularisierungsfaktor}{\lambda}{}{}
 \newnom{identity_matrix}{Identitätsmatrix}{\bm{I}}{$\begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{bmatrix}$}{}
-\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion}
-
+\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion}{}
+\newnom{mean}{arithmetisches Mittel}{\mu}{}{}
+\newnom{mean-vector}{Mittelwerts-Vektor}{\bm{\mu}}{}{}
+\newnom{covariance}{Kovarianz-Matrix}{\bm{\Sigma}}{}{}
+\newnom{variance}{Varianz}{\sigma^2}{$\mathbb{E}_p[(X-\nomeq{mean})$]}{}
 \shorthandoff{"}

 \makeglossaries
--- a/Packages.tex
+++ b/Packages.tex
@ -114,6 +114,7 @@ rightsub = \grq%
 \usepackage{amsmath}
 %special symbols
 \usepackage{fontawesome}
+\usepackage{amssymb}
 %si units
 \usepackage[output-decimal-marker={,}]{siunitx}
 %referencing equations
--- a/chapters/Mathematische_Grundlagen/Probability_Theory.tex
+++ b/chapters/Mathematische_Grundlagen/Probability_Theory.tex
@ -58,4 +58,162 @@ Die Regel von Bayes ist eine der wichtigsten Regeln der Wahrscheinlichkeitstheor
    p(x|y) = \dfrac{p(y|x)p(x)}{p(y)} = \dfrac{p(y|x)p(x)}{\sum_{x'}p(y|x')p(x')}
 \end{equation}

-Weiter auf Seite 114
+\section{Expectations}%
+\label{sec:Expectations}
+Der Erwartungswert einer Funtion $f(x)$ lässt sich in Kombination mit der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} errechnen:
+\begin{align} \label{eq:expactations}
+    \mathbb{E}_p[f(x)] &= \int p(x)f(x) dx\\
+    \mathbb{E}_p[f(x)|Y=y] &= \int p(x|y)f(x) dx\\
+    \mathbb{E}_p[f(x)] &= \int p(y)\mathbb{E}[f(x)|Y=y] dy
+\end{align}
+\subsection{Monte-carlo estimation}%
+\label{sub:Monte-carlo estimation}
+Eine Approximation des Erwartungswertes lässt sich darüber erreichen,
+dass eine Menge von $N$ Samples $x_i$ der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} gezogen werden.
+Diese Approximation wird als Monte-Carlo-Abschätzung bezeichnet.
+Hierbei wird die Approximation genauer,
+je mehr Samples genommen werden:
+\begin{equation} \label{eq:monte-carlo_estimation}
+    \mathbb{E}_p[f(x)] = \int p(x)f(x) dx \approx \dfrac{1}{N}\sum_{x_i\sim p(x)}f(x_i)
+\end{equation}
+
+\section{Moments}%
+\label{sec:Moments}
+In der Stochastik lassen sich Momente für Wahrscheinlichkeitsdichtefunktionen errechnen
+\paragraph{erstes Moment}%
+\label{par:erstes Moment}
+Das erste Moment wird als \nomf{mean} der Wahrscheinlichkeitsdichtefunktion bezeichnet
+\begin{align} \label{eq:1st_moment}
+    \nomeq{mean} &= \mathbb{E}_p[x]\\
+    \nomeq{mean-vector} &= \mathbb{E}_p[\bm{x}]
+\end{align}
+\paragraph{zweites Moment}%
+\label{par:zweites Moment}
+Das zweite Moment errechnet sich durch:
+\begin{align} \label{eq:second_moment}
+M_2 &= \mathbb{E}_p[x^2]\\
+    \bm{M}_2 &= \mathbb{E}_p[\bm{xx}^T]
+\end{align}
+Wobei die das zweite \textbf{zentrale} Moment die \nomf{variance} bzw. \nomf{covariance} der Wahrscheinlichkeitsdichtefunktion bildet:
+\begin{align} \label{eq:covariance}
+    \nomeq{variance} &= \mathbb{E}_p[(X-\nomeq{mean})^2]\\
+    \nomeq{covariance} &= \mathbb{E}_p[(\bm{x}-\nomeq{mean-vector})(\bm{x}-\nomeq{mean-vector})^T]
+\end{align}
+
+\section{Distributions}%
+\label{sec:Distributions}
+\subsection{Bernoulli Distribution}%
+\label{sub:Bernoulli Distribution}
+\begin{itemize}
+    \item Wert kann nur wahr oder falsch sein (wie Münzwurf): $X\in\{0,1\}$
+    \item \noms{mean} gibt an, mit welcher Wahrscheinlichkeit der Wert wahr ist:\\ $p(X=1)=\nomeq{mean}$
+    \item Die Wahrscheinlichkeitsdichtefunktion ist durch die Bernoulli-Distribution gegeben:
+        \begin{equation} \label{eq:bernoulli_distribution}
+            \nomeq{probability_mass_function} = \nomeq{mean}^x(1-\nomeq{mean})^{1-x}
+        \end{equation}
+\end{itemize}
+
+\subsection{Multinomial\slash\,Categorical Dristribution}%
+\label{sub:Multinomial/Categorical Dristribution}
+\begin{itemize}
+    \item $K$ mögliche Werte (wie Würfel): $C\in\{1,\dots,K\}$
+    \item spezifische Wahrscheinlichkeiten für jeden möglichen Wert:\\
+        $p(C=k)=\mu_k,\qquad\mu_k\ge0,\qquad\sum_{k=1}^K\mu_k=1$
+\end{itemize}
+Diese Verteilung kann mithilfe eines 1-hot-encoding-Vektor $\bm{h}_c = \begin{cases} 1 & \text{falls }c=k\\0 & \text{sonst} \end{cases}$ wie folgt aufgeschrieben werden:
+\begin{equation} \label{eq:multinomial_distribution}
+    p(c) = \prod_{k=1}^K \mu_k^{\bm{h}_{c,k}}
+\end{equation}
+
+\subsection{Gaussian Distribution}%
+\label{sub:Gaussian Distribution}
+\begin{wrapfigure}{r}{.4\textwidth}
+    \vspace*{-15mm}
+    \centering
+    \includegraphics[width=.8\linewidth]{gaussian_distribution.png}
+    \caption{Beispiele von Gaußschen Normalverteilungen}%
+    \label{fig:gaussian_distribution}
+    \vspace*{-15mm}
+\end{wrapfigure}
+Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert.
+\begin{equation} \label{eq:gaussian_distribution}
+    \nomeq{probability_mass_function}=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
+\end{equation}
+\vspace{10mm}
+
+\subsubsection{Multivariate Gaussian Distribution}%
+\label{ssub:Multivariate Gaussian Distribution}
+\begin{wrapfigure}{r}{.4\textwidth}
+    \vspace*{-20mm}
+    \centering
+    \includegraphics[width=0.8\linewidth]{multivariate_gaussian_distribution.png}
+    \caption{multivariate Gaußsche Verteilung}%
+    \label{fig:multivariate_gaussian_distribution}
+    \vspace*{-20mm}
+\end{wrapfigure}
+Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$).
+Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert:
+\begin{equation} \label{eq:multivariate_gaussian_distribution}
+    p(\bm{x}) =\mathcal{N}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance}) 
+    = \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\}
+\end{equation}
+
+\subsubsection{Eigenschaften von Gaußschen Verteilungen}%
+\label{ssub:Eigenschaften von Gaußschen Verteilungen}
+\begin{itemize}
+    \item jede \gls{marginal} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung
+    \item jede \gls{conditional} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung
+    \item das Produkt von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
+    \item die Summe von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
+\end{itemize}
+
+\section{\glsxtrfull{MLE}}%
+\label{sec:MLE}
+Für einen gegebenen Trainingsdatensatz $D=\{(x_i,y_i)\}_{i=1\dots N}$ von unabhängig und identisch verteilten Zufallsvariablen (\gls{iid})
+auf Basis einer Wahrscheinlichkeitsdichtefunktion $p_{\text{data}}$ soll ein $\bm{\theta}$ gefunden werden,
+sodass eine durch $\bm{\theta}\in\bm{\Theta}$ parametrisierte Wahrscheinlichkeitsdichtefunktion $p_{\bm{\theta}}(x,y)$ entsteht,
+welche die Trainingsdaten möglichst passend approximiert.
+
+Die Güte von $\bm{\theta}$ ist für einen einzelnen Datenpunkt gegeben durch:
+\begin{equation} \label{eq:fittness_theta_single_data_point}
+    \text{lik}(\bm{\theta};x_i,y_i) = p_{\bm{\theta}}(x_i,y_i)
+\end{equation}
+In Bezug auf den Gesamten Datensatz bedeutet dies:
+\begin{equation} \label{eq:fittness_theta_whole_dataset}
+    \text{lik}(\bm{\theta};D) = \prod_i p_{\bm{\theta}}(x_i,y_i)
+\end{equation}
+Und die Log-likelihood ist definiert durch:
+\begin{equation} \label{eq:fittness_theta_whole_dataset}
+    \log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(x_i,y_i)
+\end{equation}
+Dieser wird zumeist für die Optimierung vewendet, da
+\begin{itemize}
+    \item der Logarithmus das gleiche Optimum besitzt
+    \item sich eine Summe leichter optimieren lässt als ein Produkt
+    \item der Logarithmus die Exponentialfunktion ausgleicht, die Bestandteil der meisten Wahrscheinlichkeitsverteilungen ist
+\end{itemize}
+
+In diesem Zusammenhang berechnet sich die \gls{MLE} durch:
+\begin{equation} \label{eq:MLE}
+    \bm{\theta}_{\text{ML}} = \arg\max_{\bm{\theta}}\log\text{lik}(\bm{\theta};D)
+\end{equation}
+
+\subsection{Beispiel: Gaußsche Normalverteilung}%
+\label{sub:Beispiel: Gaußsche Normalverteilung}
+    Gegeben die gaußsche Dichtefunktion
+    \begin{equation} \label{eq:gaussian_density_function}
+        \log\text{lik}(\bm{\theta};D)=-N\log\sqrt{2\pi\nomeq{variance}} - \sum_i\dfrac{(x_i-\nomeq{mean})^2}{2\nomeq{variance}}
+    \end{equation}
+    Kann \nomsym{mean} bestimmt werden:
+    \begin{align} \label{eq:MLE_solution_for_mean}
+        \dfrac{\partial\log\text{lik}}{\partial N} = -\sum_i\dfrac{2(x_i-\nomeq{mean})(-1)}{2} &= 0\\
+        -N\nomeq{mean} + \sum_i x_i &= 0\\
+        \nomeq{mean} &= \dfrac{\sum_i x_i}{N}
+    \end{align}
+
+\subsection{\glsxtrshort{MLE}: conditional log-likelihood}%
+\label{sub:MLE: conditional log-likelihood}
+    \begin{equation} \label{eq:MLE:conditional}
+        \log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i) 
+    \end{equation}
+    {\color{red} Erklärung: siehe Folien 21 und 22 in Vorlesung 2}
--- a/images/gaussian_distribution.png
+++ b/images/gaussian_distribution.png
--- a/images/multivariate_gaussian_distribution.png
+++ b/images/multivariate_gaussian_distribution.png