Mathegrundlagen der 2. Vorlesung hinzugefügt.

This commit is contained in:
paul-loedige 2022-02-11 00:02:27 +01:00
parent f679f8b3b6
commit 089c79b358
5 changed files with 196 additions and 5 deletions

View File

@ -34,12 +34,41 @@
}
}
\newglossaryentry{marginal}{
name = Randverteilung (marginal distribution),
description = {
die einzelnen Wahrscheinlichkeitsverteilungen,
aus denen sich eine mehrdimensionale Wahrscheinlichkeitsverteilung zusammensetzt.
z.B. sind $p(x)$ und $p(y)$ Randverteilungen von $p(x,y)$
}
}
\newglossaryentry{conditional}{
name = bedingte Verteilung (conditional distribution),
description={
Eine Wahrscheinlichkeitsverteilung,
bei der einer oder mehrere Bedingungen festgelegt sind.
z.B. ist $p(x|y)$ eine bedingte Verteilung von $X$ gegeben $Y=y$
}
}
\newglossaryentry{identically_independently_distributed}{
name=identically independently distributed,
description={
\say{Unabhängig und identisch verteilte Zufallsvariablen besitzen alle dieselbe Verteilung,
nehmen also mit gleicher Wahrscheinlichkeit gleiche Werte an,
beeinflussen sich dabei aber nicht.} (\url{https://de.wikipedia.org/wiki/Unabh\%C3\%A4ngig_und_identisch_verteilte_Zufallsvariablen})
}
}
%--------------------
%acronyms
%--------------------
\setabbreviationstyle[acronym]{long-short}
\newacronym{FRM}{FRM}{\gls{full_rank_matrix}}
\newacronym{MLE}{MLE}{Maximum Likelihood Estimation}
\newacronym{iid}{iid}{\gls{identically_independently_distributed}}
%--------------------
%nomenclature
@ -60,8 +89,8 @@
}
}
%use nomenclature entry (name + symbol) nomF=>First letter upper case
\newcommand{\nomf}[1]{\glsentryname{#1} \texorpdfstring{\glslink{#1}{\boldmath\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
\newcommand{\nomF}[1]{\Glsentryname{#1} \texorpdfstring{\glslink{#1}{\boldmath\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
\newcommand{\nomf}[1]{\glsentryname{#1} \texorpdfstring{\glslink{#1}{\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
\newcommand{\nomF}[1]{\Glsentryname{#1} \texorpdfstring{\glslink{#1}{\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
%use nomenclature entry (name) nomS=>First letter upper case
\newcommand{\noms}[1]{\glsentryname{#1}\xspace}
\newcommand{\nomS}[1]{\Glsentryname{#1}\xspace}
@ -75,8 +104,11 @@
\newnom{vector_valued_function}{vektorwertige Funktion}{\phi(\bm{x})}{vektorwertige Funktion der des Eingangsvektor $\bm{x}$}{}
\newnom{regularization_factor}{Regularisierungsfaktor}{\lambda}{}{}
\newnom{identity_matrix}{Identitätsmatrix}{\bm{I}}{$\begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{bmatrix}$}{}
\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion}
\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion}{}
\newnom{mean}{arithmetisches Mittel}{\mu}{}{}
\newnom{mean-vector}{Mittelwerts-Vektor}{\bm{\mu}}{}{}
\newnom{covariance}{Kovarianz-Matrix}{\bm{\Sigma}}{}{}
\newnom{variance}{Varianz}{\sigma^2}{$\mathbb{E}_p[(X-\nomeq{mean})$]}{}
\shorthandoff{"}
\makeglossaries

View File

@ -114,6 +114,7 @@ rightsub = \grq%
\usepackage{amsmath}
%special symbols
\usepackage{fontawesome}
\usepackage{amssymb}
%si units
\usepackage[output-decimal-marker={,}]{siunitx}
%referencing equations

View File

@ -58,4 +58,162 @@ Die Regel von Bayes ist eine der wichtigsten Regeln der Wahrscheinlichkeitstheor
p(x|y) = \dfrac{p(y|x)p(x)}{p(y)} = \dfrac{p(y|x)p(x)}{\sum_{x'}p(y|x')p(x')}
\end{equation}
Weiter auf Seite 114
\section{Expectations}%
\label{sec:Expectations}
Der Erwartungswert einer Funtion $f(x)$ lässt sich in Kombination mit der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} errechnen:
\begin{align} \label{eq:expactations}
\mathbb{E}_p[f(x)] &= \int p(x)f(x) dx\\
\mathbb{E}_p[f(x)|Y=y] &= \int p(x|y)f(x) dx\\
\mathbb{E}_p[f(x)] &= \int p(y)\mathbb{E}[f(x)|Y=y] dy
\end{align}
\subsection{Monte-carlo estimation}%
\label{sub:Monte-carlo estimation}
Eine Approximation des Erwartungswertes lässt sich darüber erreichen,
dass eine Menge von $N$ Samples $x_i$ der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} gezogen werden.
Diese Approximation wird als Monte-Carlo-Abschätzung bezeichnet.
Hierbei wird die Approximation genauer,
je mehr Samples genommen werden:
\begin{equation} \label{eq:monte-carlo_estimation}
\mathbb{E}_p[f(x)] = \int p(x)f(x) dx \approx \dfrac{1}{N}\sum_{x_i\sim p(x)}f(x_i)
\end{equation}
\section{Moments}%
\label{sec:Moments}
In der Stochastik lassen sich Momente für Wahrscheinlichkeitsdichtefunktionen errechnen
\paragraph{erstes Moment}%
\label{par:erstes Moment}
Das erste Moment wird als \nomf{mean} der Wahrscheinlichkeitsdichtefunktion bezeichnet
\begin{align} \label{eq:1st_moment}
\nomeq{mean} &= \mathbb{E}_p[x]\\
\nomeq{mean-vector} &= \mathbb{E}_p[\bm{x}]
\end{align}
\paragraph{zweites Moment}%
\label{par:zweites Moment}
Das zweite Moment errechnet sich durch:
\begin{align} \label{eq:second_moment}
M_2 &= \mathbb{E}_p[x^2]\\
\bm{M}_2 &= \mathbb{E}_p[\bm{xx}^T]
\end{align}
Wobei die das zweite \textbf{zentrale} Moment die \nomf{variance} bzw. \nomf{covariance} der Wahrscheinlichkeitsdichtefunktion bildet:
\begin{align} \label{eq:covariance}
\nomeq{variance} &= \mathbb{E}_p[(X-\nomeq{mean})^2]\\
\nomeq{covariance} &= \mathbb{E}_p[(\bm{x}-\nomeq{mean-vector})(\bm{x}-\nomeq{mean-vector})^T]
\end{align}
\section{Distributions}%
\label{sec:Distributions}
\subsection{Bernoulli Distribution}%
\label{sub:Bernoulli Distribution}
\begin{itemize}
\item Wert kann nur wahr oder falsch sein (wie Münzwurf): $X\in\{0,1\}$
\item \noms{mean} gibt an, mit welcher Wahrscheinlichkeit der Wert wahr ist:\\ $p(X=1)=\nomeq{mean}$
\item Die Wahrscheinlichkeitsdichtefunktion ist durch die Bernoulli-Distribution gegeben:
\begin{equation} \label{eq:bernoulli_distribution}
\nomeq{probability_mass_function} = \nomeq{mean}^x(1-\nomeq{mean})^{1-x}
\end{equation}
\end{itemize}
\subsection{Multinomial\slash\,Categorical Dristribution}%
\label{sub:Multinomial/Categorical Dristribution}
\begin{itemize}
\item $K$ mögliche Werte (wie Würfel): $C\in\{1,\dots,K\}$
\item spezifische Wahrscheinlichkeiten für jeden möglichen Wert:\\
$p(C=k)=\mu_k,\qquad\mu_k\ge0,\qquad\sum_{k=1}^K\mu_k=1$
\end{itemize}
Diese Verteilung kann mithilfe eines 1-hot-encoding-Vektor $\bm{h}_c = \begin{cases} 1 & \text{falls }c=k\\0 & \text{sonst} \end{cases}$ wie folgt aufgeschrieben werden:
\begin{equation} \label{eq:multinomial_distribution}
p(c) = \prod_{k=1}^K \mu_k^{\bm{h}_{c,k}}
\end{equation}
\subsection{Gaussian Distribution}%
\label{sub:Gaussian Distribution}
\begin{wrapfigure}{r}{.4\textwidth}
\vspace*{-15mm}
\centering
\includegraphics[width=.8\linewidth]{gaussian_distribution.png}
\caption{Beispiele von Gaußschen Normalverteilungen}%
\label{fig:gaussian_distribution}
\vspace*{-15mm}
\end{wrapfigure}
Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert.
\begin{equation} \label{eq:gaussian_distribution}
\nomeq{probability_mass_function}=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
\end{equation}
\vspace{10mm}
\subsubsection{Multivariate Gaussian Distribution}%
\label{ssub:Multivariate Gaussian Distribution}
\begin{wrapfigure}{r}{.4\textwidth}
\vspace*{-20mm}
\centering
\includegraphics[width=0.8\linewidth]{multivariate_gaussian_distribution.png}
\caption{multivariate Gaußsche Verteilung}%
\label{fig:multivariate_gaussian_distribution}
\vspace*{-20mm}
\end{wrapfigure}
Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$).
Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert:
\begin{equation} \label{eq:multivariate_gaussian_distribution}
p(\bm{x}) =\mathcal{N}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance})
= \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\}
\end{equation}
\subsubsection{Eigenschaften von Gaußschen Verteilungen}%
\label{ssub:Eigenschaften von Gaußschen Verteilungen}
\begin{itemize}
\item jede \gls{marginal} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung
\item jede \gls{conditional} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung
\item das Produkt von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
\item die Summe von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
\end{itemize}
\section{\glsxtrfull{MLE}}%
\label{sec:MLE}
Für einen gegebenen Trainingsdatensatz $D=\{(x_i,y_i)\}_{i=1\dots N}$ von unabhängig und identisch verteilten Zufallsvariablen (\gls{iid})
auf Basis einer Wahrscheinlichkeitsdichtefunktion $p_{\text{data}}$ soll ein $\bm{\theta}$ gefunden werden,
sodass eine durch $\bm{\theta}\in\bm{\Theta}$ parametrisierte Wahrscheinlichkeitsdichtefunktion $p_{\bm{\theta}}(x,y)$ entsteht,
welche die Trainingsdaten möglichst passend approximiert.
Die Güte von $\bm{\theta}$ ist für einen einzelnen Datenpunkt gegeben durch:
\begin{equation} \label{eq:fittness_theta_single_data_point}
\text{lik}(\bm{\theta};x_i,y_i) = p_{\bm{\theta}}(x_i,y_i)
\end{equation}
In Bezug auf den Gesamten Datensatz bedeutet dies:
\begin{equation} \label{eq:fittness_theta_whole_dataset}
\text{lik}(\bm{\theta};D) = \prod_i p_{\bm{\theta}}(x_i,y_i)
\end{equation}
Und die Log-likelihood ist definiert durch:
\begin{equation} \label{eq:fittness_theta_whole_dataset}
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(x_i,y_i)
\end{equation}
Dieser wird zumeist für die Optimierung vewendet, da
\begin{itemize}
\item der Logarithmus das gleiche Optimum besitzt
\item sich eine Summe leichter optimieren lässt als ein Produkt
\item der Logarithmus die Exponentialfunktion ausgleicht, die Bestandteil der meisten Wahrscheinlichkeitsverteilungen ist
\end{itemize}
In diesem Zusammenhang berechnet sich die \gls{MLE} durch:
\begin{equation} \label{eq:MLE}
\bm{\theta}_{\text{ML}} = \arg\max_{\bm{\theta}}\log\text{lik}(\bm{\theta};D)
\end{equation}
\subsection{Beispiel: Gaußsche Normalverteilung}%
\label{sub:Beispiel: Gaußsche Normalverteilung}
Gegeben die gaußsche Dichtefunktion
\begin{equation} \label{eq:gaussian_density_function}
\log\text{lik}(\bm{\theta};D)=-N\log\sqrt{2\pi\nomeq{variance}} - \sum_i\dfrac{(x_i-\nomeq{mean})^2}{2\nomeq{variance}}
\end{equation}
Kann \nomsym{mean} bestimmt werden:
\begin{align} \label{eq:MLE_solution_for_mean}
\dfrac{\partial\log\text{lik}}{\partial N} = -\sum_i\dfrac{2(x_i-\nomeq{mean})(-1)}{2} &= 0\\
-N\nomeq{mean} + \sum_i x_i &= 0\\
\nomeq{mean} &= \dfrac{\sum_i x_i}{N}
\end{align}
\subsection{\glsxtrshort{MLE}: conditional log-likelihood}%
\label{sub:MLE: conditional log-likelihood}
\begin{equation} \label{eq:MLE:conditional}
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i)
\end{equation}
{\color{red} Erklärung: siehe Folien 21 und 22 in Vorlesung 2}

Binary file not shown.

After

Width:  |  Height:  |  Size: 88 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 398 KiB