diff --git a/Appendix.tex b/Appendix.tex index c51bbe1..587720d 100644 --- a/Appendix.tex +++ b/Appendix.tex @@ -17,3 +17,9 @@ \appendix \chapter{Anhang} \label{appendix} + +\section{Herleitung: Gradient for Logistic Regression}% +\label{sec:Herleitung: Gradient for Logistic Regression} +\includegraphics[page=64,width=\textwidth]{Vorlesungen/02_LinearClassification.pdf} + + diff --git a/Glossary.tex b/Glossary.tex index c005fee..4293642 100644 --- a/Glossary.tex +++ b/Glossary.tex @@ -18,9 +18,7 @@ \newglossaryentry{underfitting}{ name=Underfitting, description={ - Eine Approximation ist underfitted, - wenn die Approximation so simple ist, - dass weder Trainings"~ noch Testdaten gut approximiert werden. + Eine Approximation ist underfitted, wenn die Approximation so simple ist, dass weder Trainings"~ noch Testdaten gut approximiert werden. } } @@ -123,10 +121,10 @@ \newnom{vector_valued_function}{vektorwertige Funktion}{\bm\phi(\bm{x})}{vektorwertige Funktion der des Eingangsvektor $\bm{x}$} \newnom{regularization_factor}{Regularisierungsfaktor}{\lambda}{} \newnom{identity_matrix}{Identitätsmatrix}{\bm{I}}{$\begin{bmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & 1 \end{bmatrix}$} -\newnom{probability_mass_function}{Probability Mass Function}{p(x)}{Wahrscheinlichkeitsdichte-\slash\,Wahrscheinlichkeitsmassefunktion} +\newnom{probability_mass_function}{Pro\-ba\-bi\-li\-ty Mass Func\-tion}{p(x)}{Wahrscheinlichkeitsdichte"~\slash\,Wahrscheinlichkeitsmassefunktion} \newnom{mean}{arithmetisches Mittel}{\mu}{} -\newnom{mean-vector}{Mittelwerts-Vektor}{\bm{\mu}}{} -\newnom{covariance}{Kovarianz-Matrix}{\bm{\Sigma}}{} +\newnom{mean-vector}{Mittelwerts"~Vektor}{\bm{\mu}}{} +\newnom{covariance}{Kovarianz"~Matrix}{\bm{\Sigma}}{} \newnom{variance}{Varianz}{\sigma^2}{$\mathbb{E}_p[(X-\nomeq{mean})$]} \newnom{sigmoid}{Sigmoid Function}{\sigma}{} \newnom{learning_rate}{Learning Rate}{\eta}{} @@ -134,11 +132,11 @@ \newnom{kernel_function}{Kernel Function}{k}{} \newnom{kernel_vector}{Kernel Vector}{\bm{k}}{} \newnom{margin}{Margin}{\rho}{} -\newnom{slack-variable}{Slack-Variable}{\xi_i}{} +\newnom{slack-variable}{Slack"~Variable}{\xi_i}{} \newnom{parameter_vector}{Parameter Vector}{\bm{\theta}}{} \newnom{gaussian_distribution}{Gaußsche Normalverteilung}{\mathcal{N}}{} \newnom{gaussian_process}{Gaußscher Prozess}{\mathcal{GP}}{} -\newnom{hyper_parameters}{Hyper-Parameter}{\bm{\beta}}{} +\newnom{hyper_parameters}{Hyper"~Parameter}{\bm{\beta}}{} \newnom{activation_function}{Aktivierungsfunktion}{\phi}{} \shorthandoff{"} diff --git a/Packages.tex b/Packages.tex index 922a6dc..2f65557 100644 --- a/Packages.tex +++ b/Packages.tex @@ -26,6 +26,8 @@ \usepackage[export]{adjustbox} %align graphics at bottom \usepackage{graphbox} +%include multiple pages from a PDF file +\usepackage{pdfpages} %-------------------- %german quotation diff --git a/chapters/Bayesian_Learning/Bayesian_Learning.tex b/chapters/Bayesian_Learning/Bayesian_Learning.tex index 616d472..0bf984c 100644 --- a/chapters/Bayesian_Learning/Bayesian_Learning.tex +++ b/chapters/Bayesian_Learning/Bayesian_Learning.tex @@ -19,7 +19,7 @@ Hierbei haben die einzelnen Teile folgende Eigenschaften: \item Posterior: Wahrscheinlichkeit für die Richtigkeit von \nomf{parameter_vector} auf Basis der gegebenen Daten \item Likelihood: Wahrscheinlichkeitswerte der Daten auf Basis eines gegebenen \nomf{parameter_vector} \item Prior: Vermutete Richtigkeit von \nomf{parameter_vector} - \item Evidence: lediglich ein Normalisierungsfaktor, der für den Modellvergleich benötigt wird (\cref{Model Comparison}) + \item Evidence: lediglich ein Normalisierungsfaktor, der für den Modellvergleich benötigt wird (\cref{cha:Model Selection}) \end{itemize} Die Vorhersage für einen neuen Datenpunkt $\bm x^*$ erfolgt auf Basis folgender Formel: \begin{equation} \label{eq:bayesian_learning:predictive_distribution} diff --git a/chapters/Classical_Supervised_Learning/Linear_Classification.tex b/chapters/Classical_Supervised_Learning/Linear_Classification.tex index 36f4a39..f03ae04 100644 --- a/chapters/Classical_Supervised_Learning/Linear_Classification.tex +++ b/chapters/Classical_Supervised_Learning/Linear_Classification.tex @@ -244,7 +244,7 @@ Die Loss Function für die Logistic Regression kann dank der Eigenschaften der \ \begin{align} \label{eq:gradient_for_logistic_regression} \dfrac{\partial\text{loss}_i}{\partial\bm{w}} &= \dfrac{\partial}{\partial\bm{w}}\left(c_i\log\nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)) + (1 - c_i) \log(1-\nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)))\right)\\ - &= \dots\text{\color{red}siehe Vorlesung 02 Folie 65}\\ + &= \dots\text{\cref{sec:Herleitung: Gradient for Logistic Regression}}\\ &= (c_i - \nomeq{sigmoid}(\bm{w}^T\bm{\phi}(\bm{x}_i)))\phi(\bm{x}_i) \end{align}