ML_Zusammenfassung/chapters/Basics/Data_Information_Knowledge.tex

49 lines
3.1 KiB
TeX

\chapter{Data, Information, Knowledge}
Allgmein kann man sagen, dass Messungen Daten (Data) erzeugen, aus denen sich Informationen ableiten lassen, aus denen man Wissen (Knowledge) gewinnen kann.
\section{Measurement}
Da die meisten modernen Systeme digital sind müssen die Daten der echten Welt vorverarbeitet werden:
\begin{itemize}
\item Signale müssen in digitale Signale umgewandelt werden (z.B. ADC).
\item Die Sensoren müssen an die Gegebenheiten angepasst werden.
\item Signale müssen in Abhängigkeit zu externen Faktoren gesetzt werden.
\end{itemize}
Diese Schritte sind sehr wichtig, da es unmöglich ist aus schlechten Daten gute Erkenntnisse zu gewinnen (\textbf{garbage in - garbage out}).
In der Praxis treten hierbei bei Sensoren die folgenden Fehlerarten auf:
\begin{itemize}
\item \textbf{Random errors:} zufällige Fehler (z.B. Rauschen)
\item \textbf{Systematic errors:} Fehler im Aufbau des Systems (z.B. falsch positionierter Sensor)
\end{itemize}
\section{Taxonomy of Uncertainty}
\Large
$$
\text{\color{red}Data}\ne\text{\color{red}Information}\ne\text{\color{red}Knowledge}
$$
\normalsize
Um systematisch mit den Unsicherheiten des Systems umzugehen müssen mehrere Datenströme so kombiniert werden,
dass Informationen entstehen aus denen sich zuverlässig Wissen ableiten lässt.
Die größten Hürden bei der Kombination der Datenströme sind hierbei:
\begin{itemize}
\item too much data
\item poor models
\item bad features or too many features
\item improperly analysed applications
\end{itemize}
Das größte Problem stellt hierbei der Irrglaube dar, dass die Daten alleine ausreichen um eine maschinelle Diagnose zu erstellen.
Jedoch spielt auch das Wissen über die physikalischen, chemischen, ... Eigenschaften des Systems eine wichtige Rolle für die Erstellung.\\
\begin{center}
\includegraphics[width=.6\textwidth]{human_evolutionary_and_trained_knowledge.png}
\end{center}
\subsection{Arten von Unsicherheit}
\includegraphics[width=\textwidth]{aleatoric_and_epistemic_uncertainty.png}
\paragraph{Aleatoric uncertainty}
Es gibt Daten die in ihrem Kern nichtdeterministischer Natur sind.
Dies lassen sich nicht ausschließen, egal wie genau der Messaufbau errichtet ist.
Hier lässt sich ein probabilistischer Ansatz wählen um diese Daten dennoch zu verstehen (z.B. Bayesian Probability Theory).
Bei dieser Art von Unsicherheit spricht man von \say{Aleatoric uncertainty}.
\paragraph{Epistemic uncertainty}
In vielen Situationen steht nicht genügend Wissen über das System zur Verfügung um ein bestimmtes Verhalten zu analysieren.
Um mit dieser Unsicherheit umzugehen muss die \say{knowledge base} erweitert werden.
Dies ist durch die Kombination mehrerer Sensoren oder Expertenwissen möglich.