220 lines
10 KiB
TeX

\chapter{Probability Theory}%
\label{cha:Probability Theory}
Eine Funktion \nomsym{probability_mass_function},
die die Wahrscheinlichkeit angibt,
dass $X$ den Wert $x$ annimmt,
wird als \noms{probability_mass_function} bezeichnet.
Eine gültige \noms{probability_mass_function} muss folgende Eigenschaften erfüllen:
\begin{itemize}
\item weist jedem $x\in X$ einen Wert zu
\item nicht-negativ
\item die Summe aller Wahrscheinlichkeiten ist 1
\end{itemize}
Zwei Wahrscheinlichkeitsdichtefunktionen können dabei auf verschiedene Arten miteinander zusammenhängen:
\begin{itemize}
\item \textbf{Joint Distribution} $p(x,y)$: Die Wahrscheinlichkeit das $X=x$ und $Y=y$
\item \textbf{Conditional Distribution} $p(x|y)$: Die Wahrscheinlichkeit für $X=x$, wenn $Y=y$ gegeben ist
\end{itemize}
\begin{figure}[H]
\centering
\includegraphics[width=.6\linewidth]{images/conditional_and_joint_distribution.png}
\caption{Conditional and Joint Distribution}
\label{fig:conditional_and_joint_distribution}
\end{figure}
\section{Rules of Probability}%
\label{sec:Rules of Probability}
\paragraph{Summenregel}%
\label{par:Summenregel}
\begin{align} \label{eq:sum_rule}
p(x) &= \sum_y p(x,y)\\
p(x_1) &= \sum_{x_2}\sum_{x_3}\cdots\sum_{x_D} p(x_1,\dots,x_D)
\end{align}
\begin{figure}[H]
\centering
\includegraphics[width=0.6\textwidth]{images/sum_rule.png}
\caption{Summenregel}
\label{fig:sum_rule}
\end{figure}
\paragraph{Ketten"~\slash\,Produktregel}%
\label{par:Ketten-/Produktregel}
\begin{align}\label{eq:chain_rule}
p(x,y) &= p(x|y)p(y) \\
p(x_1,\dots,x_D) &= p(x_1)p(x_2|x_1)\dots p(x_D|x_1,\dots, x_{D-1})
\end{align}
\begin{figure}[H]
\centering
\includegraphics[width=0.7\textwidth]{images/chain_rule.png}
\caption{Ketten"~\slash\,Produktregel}
\label{fig:chain_rule}
\end{figure}
\subsection{Bayes Rule}%
\label{sub:Bayes Rule}
Die Regel von Bayes ist eine der wichtigsten Regeln der Wahrscheinlichkeitstheorie und essentiell im Bereich des Maschinellen Lernens.
\begin{equation} \label{eq:Bayes Rule}
p(x|y) = \dfrac{p(y|x)p(x)}{p(y)} = \dfrac{p(y|x)p(x)}{\sum_{x'}p(y|x')p(x')}
\end{equation}
\section{Expectations}%
\label{sec:Expectations}
Der Erwartungswert einer Funtion $f(x)$ lässt sich in Kombination mit der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} errechnen:
\begin{align} \label{eq:expactations}
\mathbb{E}_p[f(x)] &= \int p(x)f(x) dx\\
\mathbb{E}_p[f(x)|Y=y] &= \int p(x|y)f(x) dx\\
\mathbb{E}_p[f(x)] &= \int p(y)\mathbb{E}[f(x)|Y=y] dy
\end{align}
\subsection{Monte-carlo estimation}%
\label{sub:Monte-carlo estimation}
Eine Approximation des Erwartungswertes lässt sich darüber erreichen,
dass eine Menge von $N$ Samples $x_i$ der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} gezogen werden.
Diese Approximation wird als Monte-Carlo-Abschätzung bezeichnet.
Hierbei wird die Approximation genauer,
je mehr Samples genommen werden:
\begin{equation} \label{eq:monte-carlo_estimation}
\mathbb{E}_p[f(x)] = \int p(x)f(x) dx \approx \dfrac{1}{N}\sum_{x_i\sim p(x)}f(x_i)
\end{equation}
\section{Moments}%
\label{sec:Moments}
In der Stochastik lassen sich Momente für Wahrscheinlichkeitsdichtefunktionen errechnen
\paragraph{erstes Moment}%
\label{par:erstes Moment}
Das erste Moment wird als \nomf{mean} der Wahrscheinlichkeitsdichtefunktion bezeichnet
\begin{align} \label{eq:1st_moment}
\nomeq{mean} &= \mathbb{E}_p[x]\\
\nomeq{mean-vector} &= \mathbb{E}_p[\bm{x}]
\end{align}
\paragraph{zweites Moment}%
\label{par:zweites Moment}
Das zweite Moment errechnet sich durch:
\begin{align} \label{eq:second_moment}
M_2 &= \mathbb{E}_p[x^2]\\
\bm{M}_2 &= \mathbb{E}_p[\bm{xx}^T]
\end{align}
Wobei die das zweite \textbf{zentrale} Moment die \nomf{variance} bzw. \nomf{covariance} der Wahrscheinlichkeitsdichtefunktion bildet:
\begin{align} \label{eq:covariance}
\nomeq{variance} &= \mathbb{E}_p[(X-\nomeq{mean})^2]\\
\nomeq{covariance} &= \mathbb{E}_p[(\bm{x}-\nomeq{mean-vector})(\bm{x}-\nomeq{mean-vector})^T]
\end{align}
\section{Distributions}%
\label{sec:Distributions}
\subsection{Bernoulli Distribution}%
\label{sub:Bernoulli Distribution}
\begin{itemize}
\item Wert kann nur wahr oder falsch sein (wie Münzwurf): $X\in\{0,1\}$
\item \noms{mean} gibt an, mit welcher Wahrscheinlichkeit der Wert wahr ist:\\ $p(X=1)=\nomeq{mean}$
\item Die Wahrscheinlichkeitsdichtefunktion ist durch die Bernoulli-Distribution gegeben:
\begin{equation} \label{eq:bernoulli_distribution}
\nomeq{probability_mass_function} = \nomeq{mean}^x(1-\nomeq{mean})^{1-x}
\end{equation}
\end{itemize}
\subsection{Multinomial\slash\,Categorical Dristribution}%
\label{sub:Multinomial/Categorical Dristribution}
\begin{itemize}
\item $K$ mögliche Werte (wie Würfel): $C\in\{1,\dots,K\}$
\item spezifische Wahrscheinlichkeiten für jeden möglichen Wert:\\
$p(C=k)=\mu_k,\qquad\mu_k\ge0,\qquad\sum_{k=1}^K\mu_k=1$
\end{itemize}
Diese Verteilung kann mithilfe eines 1-hot-encoding-Vektor $\bm{h}_c = \begin{cases} 1 & \text{falls }c=k\\0 & \text{sonst} \end{cases}$ wie folgt aufgeschrieben werden:
\begin{equation} \label{eq:multinomial_distribution}
p(c) = \prod_{k=1}^K \mu_k^{\bm{h}_{c,k}}
\end{equation}
\subsection{Gaussian Distribution}%
\label{sub:Gaussian Distribution}
\begin{wrapfigure}{r}{.4\textwidth}
\vspace*{-15mm}
\centering
\includegraphics[width=.8\linewidth]{gaussian_distribution.png}
\caption{Beispiele von Gaußschen Normalverteilungen}%
\label{fig:gaussian_distribution}
\vspace*{-15mm}
\end{wrapfigure}
Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert.
\begin{equation} \label{eq:gaussian_distribution}
\nomeq{probability_mass_function}=\nomeq{gaussian_distribution}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
\end{equation}
\vspace{10mm}
\subsubsection{Multivariate Gaussian Distribution}%
\label{ssub:Multivariate Gaussian Distribution}
\begin{wrapfigure}{r}{.4\textwidth}
\vspace*{-20mm}
\centering
\includegraphics[width=0.8\linewidth]{multivariate_gaussian_distribution.png}
\caption{multivariate Gaußsche Verteilung}%
\label{fig:multivariate_gaussian_distribution}
\vspace*{-20mm}
\end{wrapfigure}
Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$).
Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert:
\begin{equation} \label{eq:multivariate_gaussian_distribution}
p(\bm{x}) =\nomeq{gaussian_distribution}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance})
= \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\}
\end{equation}
\subsubsection{Eigenschaften von Gaußschen Verteilungen}%
\label{ssub:Eigenschaften von Gaußschen Verteilungen}
\begin{itemize}
\item jede \gls{marginal} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung
\item jede \gls{conditional} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung
\item das Produkt von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
\item die Summe von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
\end{itemize}
\section{\texorpdfstring{\glsxtrfull{MLE}}{\glsfmtfull{MLE}}}%
\label{sec:MLE}
Für einen gegebenen Trainingsdatensatz $D=\{(x_i,y_i)\}_{i=1\dots N}$ von unabhängig und identisch verteilten Zufallsvariablen (\gls{iid})
auf Basis einer Wahrscheinlichkeitsdichtefunktion $p_{\text{data}}$ soll ein $\bm{\theta}$ gefunden werden,
sodass eine durch $\bm{\theta}\in\bm{\Theta}$ parametrisierte Wahrscheinlichkeitsdichtefunktion $p_{\bm{\theta}}(x,y)$ entsteht,
welche die Trainingsdaten möglichst passend approximiert.
Die Güte von $\bm{\theta}$ ist für einen einzelnen Datenpunkt gegeben durch:
\begin{equation} \label{eq:fittness_theta_single_data_point}
\text{lik}(\bm{\theta};x_i,y_i) = p_{\bm{\theta}}(x_i,y_i)
\end{equation}
In Bezug auf den Gesamten Datensatz bedeutet dies:
\begin{equation} \label{eq:fittness_theta_whole_dataset}
\text{lik}(\bm{\theta};D) = \prod_i p_{\bm{\theta}}(x_i,y_i)
\end{equation}
Und die Log-likelihood ist definiert durch:
\begin{equation} \label{eq:loglik_theta_whole_dataset}
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(x_i,y_i)
\end{equation}
Dieser wird zumeist für die Optimierung vewendet, da
\begin{itemize}
\item der Logarithmus das gleiche Optimum besitzt
\item sich eine Summe leichter optimieren lässt als ein Produkt
\item der Logarithmus die Exponentialfunktion ausgleicht, die Bestandteil der meisten Wahrscheinlichkeitsverteilungen ist
\end{itemize}
In diesem Zusammenhang berechnet sich die \gls{MLE} durch:
\begin{equation} \label{eq:MLE}
\bm{\theta}_{\text{ML}} = \arg\max_{\bm{\theta}}\log\text{lik}(\bm{\theta};D)
\end{equation}
\subsection{Beispiel: Gaußsche Normalverteilung}%
\label{sub:Beispiel: Gaußsche Normalverteilung}
Gegeben die gaußsche Dichtefunktion
\begin{equation} \label{eq:gaussian_density_function}
\log\text{lik}(\bm{\theta};D)=-N\log\sqrt{2\pi\nomeq{variance}} - \sum_i\dfrac{(x_i-\nomeq{mean})^2}{2\nomeq{variance}}
\end{equation}
Kann \nomsym{mean} bestimmt werden:
\begin{align} \label{eq:MLE_solution_for_mean}
\dfrac{\partial\log\text{lik}}{\partial N} = -\sum_i\dfrac{2(x_i-\nomeq{mean})(-1)}{2} &= 0\\
-N\nomeq{mean} + \sum_i x_i &= 0\\
\nomeq{mean} &= \dfrac{\sum_i x_i}{N}
\end{align}
\subsection{\texorpdfstring{\glsxtrshort{MLE}}{\glsfmtshort{MLE}}: conditional log-likelihood}%
\label{sub:MLE: conditional log-likelihood}
\begin{equation} \label{eq:MLE:conditional}
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i)
\end{equation}
{\color{red} Erklärung: siehe Folien 21 und 22 in Vorlesung 2}