generated from TH_General/Template_Summary
104 lines
7.1 KiB
TeX
104 lines
7.1 KiB
TeX
\chapter{Basics}
|
|
\section{Information and Pattern Recognition}
|
|
Falls zu viele Daten vorliegen um diese manuell auszuwerten kann es möglich sein den Vorgang zu automatisieren.
|
|
Hierbei werden die Daten mithilfe eines Musters klassifiziert (Pattern assignment $\rightarrow$ classification).
|
|
Das Verfahren zur Auswahl der jeweiligen Klassenzuordnung wird als \say{Pattern Recognition} bezeichnet.
|
|
Man spricht von \say{Automatc Pattern Recognition}, falls das System dazu in der Lage ist neue Pattern in bestehende Klassen einzuordnen.
|
|
\paragraph{Muster (pattern)}
|
|
Das Wort \say{Pattern} beschreibt dabei eine Menge von Objekten mit vorherbestimmten beschreibenden Eigenschaften.
|
|
Ein ein-dimensionales Pattern ist durch einen Vektor (discrete signals) definiert, wohingegen ein zwei-dimensionales Pattern durch eine Matrix beschrieben wird.
|
|
\paragraph{Klassen (classes)}
|
|
Pattern, die von einem \say{Pattern Recognition System} in die gleiche Klasse gesteckt werden sind äquivalent.
|
|
Die Klassen stellen dadurch Äquivalenzklassen (equivalent classes) dar.
|
|
\paragraph{Klassifikation (classification)}
|
|
Die Klassifikation beschreibt das Verfahren, mit dem einzelne Pattern in Klassen unterteilt werden.
|
|
\paragraph{Features}
|
|
Ein \say{Feature} bezeichnet die \say{Signatur} eines Pattern.
|
|
Das Feature errechnet sich aus den Eigenschaften des jeweiligen Pattern.
|
|
\paragraph{Feature space}
|
|
Der \say{Feature space} ist ein mehrdimensionaler mathematisch definierter Raum.
|
|
Die Dimension dieses Raums wird durch die Anzahl der Features definiert.
|
|
Mithilfe des Raumes lassen sich die einzelnen Pattern zueinander in Relation setzen.
|
|
\paragraph{Cluster}
|
|
Bei gut gewählten Features liegen die Pattern einer Klasse im Feature Space nah beieinander (low intra-class distance).\\
|
|
\includegraphics[width=\textwidth]{good_vs_bad_features.png}
|
|
Falls die einzelnen Klassen zudem einen großen Abstand zueinander im Feature Space haben (large inter-class distance) spricht man von einem \say{Cluster}.
|
|
Bei schlecht gewählten Features lassen sich keine Cluster bilden, da die Klassen einander im Feature Space überlappen.\\
|
|
\includegraphics[width=\textwidth]{cluster.png}
|
|
|
|
|
|
\subsection{Humans as Pattern Recognition Systems}
|
|
Wie sich herausstellen wird sind die Menschen sehr gut darin Muster in Dingen zu erkennen.
|
|
Sie können mit nur wenigen Informationen sehr gezielte Klassifizierungen vornehmen.
|
|
|
|
\subsection{Human vs. Machine Pattern Recognition}
|
|
\begin{center}
|
|
\includegraphics[width=.8\textwidth]{human_vs_machine 1.png}\\
|
|
|
|
\includegraphics[width=\textwidth]{human_vs_machine 2.png}
|
|
\end{center}
|
|
|
|
\subsection{Class allocation (Klassen-Einteilung)}
|
|
Grob zusammengefasst gibt es zwei Möglichkeiten für die Erstellung verschiedener Klassen:
|
|
\paragraph{Semantical classes}
|
|
\say{Semantical classes} werden aufgrund der inhaltlichen Äquivalenz der Pattern gebildet.
|
|
Hierbei werden die Klassen selber meist durch einen menschlichen Experten definiert.
|
|
Die Aufgabe ist dann ein System zu erstellen, welche die Pattern in die vordefinierten Klassen einordnet.
|
|
Man spricht hierbei vom \textbf{Supervised Learning}.
|
|
\paragraph{Natural classes}
|
|
\say{Natural classes} werden auf Basis mathematischer Formalismen gebildet.
|
|
Hierfür wird z.B. der mathematische Abstand eines bestimmten Patterns zu einem anderen für die Klassifikation verwendet.
|
|
Diese Art Klassen wird vor allem im Bereich der \say{numerical classification} verwendet, welche ein Beispiel für ein \textbf{Unsupervised Learning} Verfahren ist.
|
|
|
|
\section{Data, Information, Knowledge}
|
|
Allgmein kann man sagen, dass Messungen Daten (Data) erzeugen, aus denen sich Informationen ableiten lassen, aus denen man Wissen (Knowledge) gewinnen kann.
|
|
|
|
\subsection{Measurement}
|
|
Da die meisten modernen Systeme digital sind müssen die Daten der echten Welt vorverarbeitet werden:
|
|
\begin{itemize}
|
|
\item Signale müssen in digitale Signale umgewandelt werden (z.B. ADC).
|
|
\item Die Sensoren müssen an die Gegebenheiten angepasst werden.
|
|
\item Signale müssen in Abhängigkeit zu externen Faktoren gesetzt werden.
|
|
\end{itemize}
|
|
Diese Schritte sind sehr wichtig, da es unmöglich ist aus schlechten Daten gute Erkenntnisse zu gewinnen (\textbf{garbage in - garbage out}).
|
|
In der Praxis treten hierbei bei Sensoren die folgenden Fehlerarten auf:
|
|
\begin{itemize}
|
|
\item \textbf{Random errors:} zufällige Fehler (z.B. Rauschen)
|
|
\item \textbf{Systematic errors:} Fehler im Aufbau des Systems (z.B. falsch positionierter Sensor)
|
|
\end{itemize}
|
|
|
|
\subsection{Taxonomy of Uncertainty}
|
|
\Large
|
|
$$
|
|
\text{\color{red}Data}\ne\text{\color{red}Information}\ne\text{\color{red}Knowledge}
|
|
$$
|
|
\normalsize
|
|
Um systematisch mit den Unsicherheiten des Systems umzugehen müssen mehrere Datenströme so kombiniert werden,
|
|
dass Informationen entstehen aus denen sich zuverlässig Wissen ableiten lässt.
|
|
Die größten Hürden bei der Kombination der Datenströme sind hierbei:
|
|
\begin{itemize}
|
|
\item too much data
|
|
\item poor models
|
|
\item bad features or too many features
|
|
\item improperly analysed applications
|
|
\end{itemize}
|
|
Das größte Problem stellt hierbei der Irrglaube dar, dass die Daten alleine ausreichen um eine maschinelle Diagnose zu erstellen.
|
|
Jedoch spielt auch das Wissen über die physikalischen, chemischen, ... Eigenschaften des Systems eine wichtige Rolle für die Erstellung.\\
|
|
\begin{center}
|
|
\includegraphics[width=.6\textwidth]{human_evolutionary_and_trained_knowledge.png}
|
|
\end{center}
|
|
|
|
\subsubsection{Arten von Unsicherheit}
|
|
\includegraphics[width=\textwidth]{aleatoric_and_epistemic_uncertainty.png}
|
|
\paragraph{Aleatoric uncertainty}
|
|
Es gibt Daten die in ihrem Kern nichtdeterministischer Natur sind.
|
|
Dies lassen sich nicht ausschließen, egal wie genau der Messaufbau errichtet ist.
|
|
Hier lässt sich ein probabilistischer Ansatz wählen um diese Daten dennoch zu verstehen (z.B. Bayesian Probability Theory).
|
|
Bei dieser Art von Unsicherheit spricht man von \say{Aleatoric uncertainty}.
|
|
\paragraph{Epistemic uncertainty}
|
|
In vielen Situationen steht nicht genügend Wissen über das System zur Verfügung um ein bestimmtes Verhalten zu analysieren.
|
|
Um mit dieser Unsicherheit umzugehen muss die \say{knowledge base} erweitert werden.
|
|
Dies ist durch die Kombination mehrerer Sensoren oder Expertenwissen möglich.
|
|
|
|
|