forked from TH_General/Template_Summary
Mathegrundlagen der 2. Vorlesung hinzugefügt.
This commit is contained in:
parent
f679f8b3b6
commit
089c79b358
40
Glossary.tex
40
Glossary.tex
@ -34,12 +34,41 @@
|
||||
}
|
||||
}
|
||||
|
||||
\newglossaryentry{marginal}{
|
||||
name = Randverteilung (marginal distribution),
|
||||
description = {
|
||||
die einzelnen Wahrscheinlichkeitsverteilungen,
|
||||
aus denen sich eine mehrdimensionale Wahrscheinlichkeitsverteilung zusammensetzt.
|
||||
z.B. sind $p(x)$ und $p(y)$ Randverteilungen von $p(x,y)$
|
||||
}
|
||||
}
|
||||
|
||||
\newglossaryentry{conditional}{
|
||||
name = bedingte Verteilung (conditional distribution),
|
||||
description={
|
||||
Eine Wahrscheinlichkeitsverteilung,
|
||||
bei der einer oder mehrere Bedingungen festgelegt sind.
|
||||
z.B. ist $p(x|y)$ eine bedingte Verteilung von $X$ gegeben $Y=y$
|
||||
}
|
||||
}
|
||||
|
||||
\newglossaryentry{identically_independently_distributed}{
|
||||
name=identically independently distributed,
|
||||
description={
|
||||
\say{Unabhängig und identisch verteilte Zufallsvariablen besitzen alle dieselbe Verteilung,
|
||||
nehmen also mit gleicher Wahrscheinlichkeit gleiche Werte an,
|
||||
beeinflussen sich dabei aber nicht.} (\url{https://de.wikipedia.org/wiki/Unabh\%C3\%A4ngig_und_identisch_verteilte_Zufallsvariablen})
|
||||
}
|
||||
}
|
||||
|
||||
%--------------------
|
||||
%acronyms
|
||||
%--------------------
|
||||
\setabbreviationstyle[acronym]{long-short}
|
||||
|
||||
\newacronym{FRM}{FRM}{\gls{full_rank_matrix}}
|
||||
\newacronym{MLE}{MLE}{Maximum Likelihood Estimation}
|
||||
\newacronym{iid}{iid}{\gls{identically_independently_distributed}}
|
||||
|
||||
%--------------------
|
||||
%nomenclature
|
||||
@ -60,8 +89,8 @@
|
||||
}
|
||||
}
|
||||
%use nomenclature entry (name + symbol) nomF=>First letter upper case
|
||||
\newcommand{\nomf}[1]{\glsentryname{#1} \texorpdfstring{\glslink{#1}{\boldmath\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
|
||||
\newcommand{\nomF}[1]{\Glsentryname{#1} \texorpdfstring{\glslink{#1}{\boldmath\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
|
||||
\newcommand{\nomf}[1]{\glsentryname{#1} \texorpdfstring{\glslink{#1}{\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
|
||||
\newcommand{\nomF}[1]{\Glsentryname{#1} \texorpdfstring{\glslink{#1}{\ensuremath{\glsentrysymbol{#1}}}}{}\xspace}
|
||||
%use nomenclature entry (name) nomS=>First letter upper case
|
||||
\newcommand{\noms}[1]{\glsentryname{#1}\xspace}
|
||||
\newcommand{\nomS}[1]{\Glsentryname{#1}\xspace}
|
||||
@ -75,8 +104,11 @@
|
||||
\newnom{vector_valued_function}{vektorwertige Funktion}{\phi(\bm{x})}{vektorwertige Funktion der des Eingangsvektor $\bm{x}$}{}
|
||||
\newnom{regularization_factor}{Regularisierungsfaktor}{\lambda}{}{}
|
||||
\newnom{identity_matrix}{Identitätsmatrix}{\bm{I}}{$\begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{bmatrix}$}{}
|
||||
\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion}
|
||||
|
||||
\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion}{}
|
||||
\newnom{mean}{arithmetisches Mittel}{\mu}{}{}
|
||||
\newnom{mean-vector}{Mittelwerts-Vektor}{\bm{\mu}}{}{}
|
||||
\newnom{covariance}{Kovarianz-Matrix}{\bm{\Sigma}}{}{}
|
||||
\newnom{variance}{Varianz}{\sigma^2}{$\mathbb{E}_p[(X-\nomeq{mean})$]}{}
|
||||
\shorthandoff{"}
|
||||
|
||||
\makeglossaries
|
||||
|
@ -114,6 +114,7 @@ rightsub = \grq%
|
||||
\usepackage{amsmath}
|
||||
%special symbols
|
||||
\usepackage{fontawesome}
|
||||
\usepackage{amssymb}
|
||||
%si units
|
||||
\usepackage[output-decimal-marker={,}]{siunitx}
|
||||
%referencing equations
|
||||
|
@ -58,4 +58,162 @@ Die Regel von Bayes ist eine der wichtigsten Regeln der Wahrscheinlichkeitstheor
|
||||
p(x|y) = \dfrac{p(y|x)p(x)}{p(y)} = \dfrac{p(y|x)p(x)}{\sum_{x'}p(y|x')p(x')}
|
||||
\end{equation}
|
||||
|
||||
Weiter auf Seite 114
|
||||
\section{Expectations}%
|
||||
\label{sec:Expectations}
|
||||
Der Erwartungswert einer Funtion $f(x)$ lässt sich in Kombination mit der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} errechnen:
|
||||
\begin{align} \label{eq:expactations}
|
||||
\mathbb{E}_p[f(x)] &= \int p(x)f(x) dx\\
|
||||
\mathbb{E}_p[f(x)|Y=y] &= \int p(x|y)f(x) dx\\
|
||||
\mathbb{E}_p[f(x)] &= \int p(y)\mathbb{E}[f(x)|Y=y] dy
|
||||
\end{align}
|
||||
\subsection{Monte-carlo estimation}%
|
||||
\label{sub:Monte-carlo estimation}
|
||||
Eine Approximation des Erwartungswertes lässt sich darüber erreichen,
|
||||
dass eine Menge von $N$ Samples $x_i$ der Wahrscheinlichkeitsdichtefunktion \nomsym{probability_mass_function} gezogen werden.
|
||||
Diese Approximation wird als Monte-Carlo-Abschätzung bezeichnet.
|
||||
Hierbei wird die Approximation genauer,
|
||||
je mehr Samples genommen werden:
|
||||
\begin{equation} \label{eq:monte-carlo_estimation}
|
||||
\mathbb{E}_p[f(x)] = \int p(x)f(x) dx \approx \dfrac{1}{N}\sum_{x_i\sim p(x)}f(x_i)
|
||||
\end{equation}
|
||||
|
||||
\section{Moments}%
|
||||
\label{sec:Moments}
|
||||
In der Stochastik lassen sich Momente für Wahrscheinlichkeitsdichtefunktionen errechnen
|
||||
\paragraph{erstes Moment}%
|
||||
\label{par:erstes Moment}
|
||||
Das erste Moment wird als \nomf{mean} der Wahrscheinlichkeitsdichtefunktion bezeichnet
|
||||
\begin{align} \label{eq:1st_moment}
|
||||
\nomeq{mean} &= \mathbb{E}_p[x]\\
|
||||
\nomeq{mean-vector} &= \mathbb{E}_p[\bm{x}]
|
||||
\end{align}
|
||||
\paragraph{zweites Moment}%
|
||||
\label{par:zweites Moment}
|
||||
Das zweite Moment errechnet sich durch:
|
||||
\begin{align} \label{eq:second_moment}
|
||||
M_2 &= \mathbb{E}_p[x^2]\\
|
||||
\bm{M}_2 &= \mathbb{E}_p[\bm{xx}^T]
|
||||
\end{align}
|
||||
Wobei die das zweite \textbf{zentrale} Moment die \nomf{variance} bzw. \nomf{covariance} der Wahrscheinlichkeitsdichtefunktion bildet:
|
||||
\begin{align} \label{eq:covariance}
|
||||
\nomeq{variance} &= \mathbb{E}_p[(X-\nomeq{mean})^2]\\
|
||||
\nomeq{covariance} &= \mathbb{E}_p[(\bm{x}-\nomeq{mean-vector})(\bm{x}-\nomeq{mean-vector})^T]
|
||||
\end{align}
|
||||
|
||||
\section{Distributions}%
|
||||
\label{sec:Distributions}
|
||||
\subsection{Bernoulli Distribution}%
|
||||
\label{sub:Bernoulli Distribution}
|
||||
\begin{itemize}
|
||||
\item Wert kann nur wahr oder falsch sein (wie Münzwurf): $X\in\{0,1\}$
|
||||
\item \noms{mean} gibt an, mit welcher Wahrscheinlichkeit der Wert wahr ist:\\ $p(X=1)=\nomeq{mean}$
|
||||
\item Die Wahrscheinlichkeitsdichtefunktion ist durch die Bernoulli-Distribution gegeben:
|
||||
\begin{equation} \label{eq:bernoulli_distribution}
|
||||
\nomeq{probability_mass_function} = \nomeq{mean}^x(1-\nomeq{mean})^{1-x}
|
||||
\end{equation}
|
||||
\end{itemize}
|
||||
|
||||
\subsection{Multinomial\slash\,Categorical Dristribution}%
|
||||
\label{sub:Multinomial/Categorical Dristribution}
|
||||
\begin{itemize}
|
||||
\item $K$ mögliche Werte (wie Würfel): $C\in\{1,\dots,K\}$
|
||||
\item spezifische Wahrscheinlichkeiten für jeden möglichen Wert:\\
|
||||
$p(C=k)=\mu_k,\qquad\mu_k\ge0,\qquad\sum_{k=1}^K\mu_k=1$
|
||||
\end{itemize}
|
||||
Diese Verteilung kann mithilfe eines 1-hot-encoding-Vektor $\bm{h}_c = \begin{cases} 1 & \text{falls }c=k\\0 & \text{sonst} \end{cases}$ wie folgt aufgeschrieben werden:
|
||||
\begin{equation} \label{eq:multinomial_distribution}
|
||||
p(c) = \prod_{k=1}^K \mu_k^{\bm{h}_{c,k}}
|
||||
\end{equation}
|
||||
|
||||
\subsection{Gaussian Distribution}%
|
||||
\label{sub:Gaussian Distribution}
|
||||
\begin{wrapfigure}{r}{.4\textwidth}
|
||||
\vspace*{-15mm}
|
||||
\centering
|
||||
\includegraphics[width=.8\linewidth]{gaussian_distribution.png}
|
||||
\caption{Beispiele von Gaußschen Normalverteilungen}%
|
||||
\label{fig:gaussian_distribution}
|
||||
\vspace*{-15mm}
|
||||
\end{wrapfigure}
|
||||
Eine Gaußsche Normalverteilung kann alle realen Werte enthalten ($X\in\mathbb{R}$) und ist durch \nomf{mean} und \nomf{variance} vollständig definiert.
|
||||
\begin{equation} \label{eq:gaussian_distribution}
|
||||
\nomeq{probability_mass_function}=\mathcal{N}(x|\nomeq{mean},\sigma) = \dfrac{1}{\sqrt{2\pi\nomeq{variance}}}\exp\left\{-\dfrac{(x-\nomeq{mean})^2}{2\nomeq{variance}}\right\}
|
||||
\end{equation}
|
||||
\vspace{10mm}
|
||||
|
||||
\subsubsection{Multivariate Gaussian Distribution}%
|
||||
\label{ssub:Multivariate Gaussian Distribution}
|
||||
\begin{wrapfigure}{r}{.4\textwidth}
|
||||
\vspace*{-20mm}
|
||||
\centering
|
||||
\includegraphics[width=0.8\linewidth]{multivariate_gaussian_distribution.png}
|
||||
\caption{multivariate Gaußsche Verteilung}%
|
||||
\label{fig:multivariate_gaussian_distribution}
|
||||
\vspace*{-20mm}
|
||||
\end{wrapfigure}
|
||||
Bei der multivariaten Gaußschen Verteilung sind die Werte aus einem $D$-dimensionalen reellen Werteraum ($\bm{X}\in\mathbb{R}^d$).
|
||||
Die Verteilung wird durch den \nomf{mean-vector} und die \nomf{covariance} vollständig definiert:
|
||||
\begin{equation} \label{eq:multivariate_gaussian_distribution}
|
||||
p(\bm{x}) =\mathcal{N}(\bm{x}|\nomeq{mean-vector},\nomeq{covariance})
|
||||
= \dfrac{1}{\sqrt{2\pi\nomeq{covariance}}}\exp\left\{-\dfrac{(\bm{x}-\nomeq{mean-vector})^T\nomeq{covariance}^{-1}(\bm{x}-\nomeq{mean-vector})}{2}\right\}
|
||||
\end{equation}
|
||||
|
||||
\subsubsection{Eigenschaften von Gaußschen Verteilungen}%
|
||||
\label{ssub:Eigenschaften von Gaußschen Verteilungen}
|
||||
\begin{itemize}
|
||||
\item jede \gls{marginal} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung
|
||||
\item jede \gls{conditional} einer gaußschen Normalverteilung ist wieder eine gaußsche Normalverteilung
|
||||
\item das Produkt von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
|
||||
\item die Summe von zwei gaußschen Normalverteilungen ist wieder eine gaußsche Normalverteilung
|
||||
\end{itemize}
|
||||
|
||||
\section{\glsxtrfull{MLE}}%
|
||||
\label{sec:MLE}
|
||||
Für einen gegebenen Trainingsdatensatz $D=\{(x_i,y_i)\}_{i=1\dots N}$ von unabhängig und identisch verteilten Zufallsvariablen (\gls{iid})
|
||||
auf Basis einer Wahrscheinlichkeitsdichtefunktion $p_{\text{data}}$ soll ein $\bm{\theta}$ gefunden werden,
|
||||
sodass eine durch $\bm{\theta}\in\bm{\Theta}$ parametrisierte Wahrscheinlichkeitsdichtefunktion $p_{\bm{\theta}}(x,y)$ entsteht,
|
||||
welche die Trainingsdaten möglichst passend approximiert.
|
||||
|
||||
Die Güte von $\bm{\theta}$ ist für einen einzelnen Datenpunkt gegeben durch:
|
||||
\begin{equation} \label{eq:fittness_theta_single_data_point}
|
||||
\text{lik}(\bm{\theta};x_i,y_i) = p_{\bm{\theta}}(x_i,y_i)
|
||||
\end{equation}
|
||||
In Bezug auf den Gesamten Datensatz bedeutet dies:
|
||||
\begin{equation} \label{eq:fittness_theta_whole_dataset}
|
||||
\text{lik}(\bm{\theta};D) = \prod_i p_{\bm{\theta}}(x_i,y_i)
|
||||
\end{equation}
|
||||
Und die Log-likelihood ist definiert durch:
|
||||
\begin{equation} \label{eq:fittness_theta_whole_dataset}
|
||||
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(x_i,y_i)
|
||||
\end{equation}
|
||||
Dieser wird zumeist für die Optimierung vewendet, da
|
||||
\begin{itemize}
|
||||
\item der Logarithmus das gleiche Optimum besitzt
|
||||
\item sich eine Summe leichter optimieren lässt als ein Produkt
|
||||
\item der Logarithmus die Exponentialfunktion ausgleicht, die Bestandteil der meisten Wahrscheinlichkeitsverteilungen ist
|
||||
\end{itemize}
|
||||
|
||||
In diesem Zusammenhang berechnet sich die \gls{MLE} durch:
|
||||
\begin{equation} \label{eq:MLE}
|
||||
\bm{\theta}_{\text{ML}} = \arg\max_{\bm{\theta}}\log\text{lik}(\bm{\theta};D)
|
||||
\end{equation}
|
||||
|
||||
\subsection{Beispiel: Gaußsche Normalverteilung}%
|
||||
\label{sub:Beispiel: Gaußsche Normalverteilung}
|
||||
Gegeben die gaußsche Dichtefunktion
|
||||
\begin{equation} \label{eq:gaussian_density_function}
|
||||
\log\text{lik}(\bm{\theta};D)=-N\log\sqrt{2\pi\nomeq{variance}} - \sum_i\dfrac{(x_i-\nomeq{mean})^2}{2\nomeq{variance}}
|
||||
\end{equation}
|
||||
Kann \nomsym{mean} bestimmt werden:
|
||||
\begin{align} \label{eq:MLE_solution_for_mean}
|
||||
\dfrac{\partial\log\text{lik}}{\partial N} = -\sum_i\dfrac{2(x_i-\nomeq{mean})(-1)}{2} &= 0\\
|
||||
-N\nomeq{mean} + \sum_i x_i &= 0\\
|
||||
\nomeq{mean} &= \dfrac{\sum_i x_i}{N}
|
||||
\end{align}
|
||||
|
||||
\subsection{\glsxtrshort{MLE}: conditional log-likelihood}%
|
||||
\label{sub:MLE: conditional log-likelihood}
|
||||
\begin{equation} \label{eq:MLE:conditional}
|
||||
\log\text{lik}(\bm{\theta};D) = \sum_i \log p_{\bm{\theta}}(y_i|x_i)
|
||||
\end{equation}
|
||||
{\color{red} Erklärung: siehe Folien 21 und 22 in Vorlesung 2}
|
||||
|
BIN
images/gaussian_distribution.png
Normal file
BIN
images/gaussian_distribution.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 88 KiB |
BIN
images/multivariate_gaussian_distribution.png
Normal file
BIN
images/multivariate_gaussian_distribution.png
Normal file
Binary file not shown.
After Width: | Height: | Size: 398 KiB |
Loading…
x
Reference in New Issue
Block a user