diff --git a/Content.tex b/Content.tex index 5d2688c..859d101 100644 --- a/Content.tex +++ b/Content.tex @@ -1,2 +1,4 @@ %all the main content goes here \pagenumbering{arabic} + +\input{chapters/Basics.tex} \ No newline at end of file diff --git a/Packages.tex b/Packages.tex index 68b1835..7ec1bb6 100644 --- a/Packages.tex +++ b/Packages.tex @@ -31,4 +31,6 @@ rightsub = \grq% %custom font sizes \usepackage{anyfontsize} %bibliography -\usepackage[square, numbers]{natbib} \ No newline at end of file +\usepackage[square, numbers]{natbib} +%math +\usepackage{amsmath} \ No newline at end of file diff --git a/chapters/Basics.tex b/chapters/Basics.tex new file mode 100644 index 0000000..fd6a510 --- /dev/null +++ b/chapters/Basics.tex @@ -0,0 +1,102 @@ +\chapter{Basics} +\section{Information and Pattern Recognition} + Falls zu viele Daten vorliegen um diese manuell auszuwerten kann es möglich sein den Vorgang zu automatisieren. + Hierbei werden die Daten mithilfe eines Musters klassifiziert (Pattern assignment $\rightarrow$ classification). + Das Verfahren zur Auswahl der jeweiligen Klassenzuordnung wird als \say{Pattern Recognition} bezeichnet. + Man spricht von \say{Automatc Pattern Recognition}, falls das System dazu in der Lage ist neue Pattern in bestehende Klassen einzuordnen. + \paragraph{Muster (pattern)} + Das Wort \say{Pattern} beschreibt dabei eine Menge von Objekten mit vorherbestimmten beschreibenden Eigenschaften. + Ein ein-dimensionales Pattern ist durch einen Vektor (discrete signals) definiert, wohingegen ein zwei-dimensionales Pattern durch eine Matrix beschrieben wird. + \paragraph{Klassen (classes)} + Pattern, die von einem \say{Pattern Recognition System} in die gleiche Klasse gesteckt werden sind äquivalent. + Die Klassen stellen dadurch Äquivalenzklassen (equivalent classes) dar. + \paragraph{Klassifikation (classification)} + Die Klassifikation beschreibt das Verfahren, mit dem einzelne Pattern in Klassen unterteilt werden. + \paragraph{Features} + Ein \say{Feature} bezeichnet die \say{Signatur} eines Pattern. + Das Feature errechnet sich aus den Eigenschaften des jeweiligen Pattern. + \paragraph{Feature space} + Der \say{Feature space} ist ein mehrdimensionaler mathematisch definierter Raum. + Die Dimension dieses Raums wird durch die Anzahl der Features definiert. + Mithilfe des Raumes lassen sich die einzelnen Pattern zueinander in Relation setzen. + \paragraph{Cluster} + Bei gut gewählten Features liegen die Pattern einer Klasse im Feature Space nah beieinander (low intra-class distance). + Falls die einzelnen Klassen zudem einen großen Abstand zueinander im Feature Space haben (large inter-class distance) spricht man von einem \say{Cluster}. + Bei schlecht gewählten Features lassen sich keine Cluster bilden, da die Klassen einander im Feature Space überlappen.\\ + \includegraphics[width=\textwidth]{cluster.png} + + + \subsection{Humans as Pattern Recognition Systems} + Wie sich herausstellen wird sind die Menschen sehr gut darin Muster in Dingen zu erkennen. + Sie können mit nur wenigen Informationen sehr gezielte Klassifizierungen vornehmen. + + \subsection{Human vs. Machine Pattern Recognition} + \begin{center} + \includegraphics[width=.8\textwidth]{human_vs_machine 1.png}\\ + + \includegraphics[width=\textwidth]{human_vs_machine 2.png} + \end{center} + + \subsection{Class allocation (Klassen-Einteilung)} + Grob zusammengefasst gibt es zwei Möglichkeiten für die Erstellung verschiedener Klassen: + \paragraph{Semantical classes} + \say{Semantical classes} werden aufgrund der inhaltlichen Äquivalenz der Pattern gebildet. + Hierbei werden die Klassen selber meist durch einen menschlichen Experten definiert. + Die Aufgabe ist dann ein System zu erstellen, welche die Pattern in die vordefinierten Klassen einordnet. + Man spricht hierbei vom \textbf{Supervised Learning}. + \paragraph{Natural classes} + \say{Natural classes} werden auf Basis mathematischer Formalismen gebildet. + Hierfür wird z.B. der mathematische Abstand eines bestimmten Patterns zu einem anderen für die Klassifikation verwendet. + Diese Art Klassen wird vor allem im Bereich der \say{numerical classification} verwendet, welche ein Beispiel für ein \textbf{Unsupervised Learning} Verfahren ist. + + \section{Data, Information, Knowledge} + Allgmein kann man sagen, dass Messungen Daten (Data) erzeugen, aus denen sich Informationen ableiten lassen, aus denen man Wissen (Knowledge) gewinnen kann. + + \subsection{Measurement} + Da die meisten modernen Systeme digital sind müssen die Daten der echten Welt vorverarbeitet werden: + \begin{itemize} + \item Signale müssen in digitale Signale umgewandelt werden (z.B. ADC). + \item Die Sensoren müssen an die Gegebenheiten angepasst werden. + \item Signale müssen in Abhängigkeit zu externen Faktoren gesetzt werden. + \end{itemize} + Diese Schritte sind sehr wichtig, da es unmöglich ist aus schlechten Daten gute Erkenntnisse zu gewinnen (\textbf{garbage in - garbage out}). + In der Praxis treten hierbei bei Sensoren die folgenden Fehlerarten auf: + \begin{itemize} + \item \textbf{Random errors:} zufällige Fehler (z.B. Rauschen) + \item \textbf{Systematic errors:} Fehler im Aufbau des Systems (z.B. falsch positionierter Sensor) + \end{itemize} + + \subsection{Taxonomy of Uncertainty} + \Large + $$ + \text{\color{red}Data}\ne\text{\color{red}Information}\ne\text{\color{red}Knowledge} + $$ + \normalsize + Um systematisch mit den Unsicherheiten des Systems umzugehen müssen mehrere Datenströme so kombiniert werden, + dass Informationen entstehen aus denen sich zuverlässig Wissen ableiten lässt. + Die größten Hürden bei der Kombination der Datenströme sind hierbei: + \begin{itemize} + \item too much data + \item poor models + \item bad features or too many features + \item improperly analysed applications + \end{itemize} + Das größte Problem stellt hierbei der Irrglaube dar, dass die Daten alleine ausreichen um eine maschinelle Diagnose zu erstellen. + Jedoch spielt auch das Wissen über die physikalischen, chemischen, ... Eigenschaften des Systems eine wichtige Rolle für die Erstellung.\\ + \begin{center} + \includegraphics[width=.6\textwidth]{human_evolutionary_and_trained_knowledge.png} + \end{center} + + \subsubsection{Arten von Unsicherheit} + \includegraphics[width=\textwidth]{aleatoric_and_epistemic_uncertainty.png} + \paragraph{Aleatoric uncertainty} + Es gibt Daten die in ihrem Kern nichtdeterministischer Natur sind. + Dies lassen sich nicht ausschließen, egal wie genau der Messaufbau errichtet ist. + Hier lässt sich ein probabilistischer Ansatz wählen um diese Daten dennoch zu verstehen (z.B. Bayesian Probability Theory). + Bei dieser Art von Unsicherheit spricht man von \say{Aleatoric uncertainty}. + \paragraph{Epistemic uncertainty} + In vielen Situationen steht nicht genügend Wissen über das System zur Verfügung um ein bestimmtes Verhalten zu analysieren. + Um mit dieser Unsicherheit umzugehen muss die \say{knowledge base} erweitert werden. + Dies ist durch die Kombination mehrerer Sensoren oder Expertenwissen möglich. + + diff --git a/images/aleatoric_and_epistemic_uncertainty.png b/images/aleatoric_and_epistemic_uncertainty.png new file mode 100644 index 0000000..ca81e32 Binary files /dev/null and b/images/aleatoric_and_epistemic_uncertainty.png differ diff --git a/images/cluster.png b/images/cluster.png new file mode 100644 index 0000000..f62a45b Binary files /dev/null and b/images/cluster.png differ diff --git a/images/human_evolutionary_and_trained_knowledge.png b/images/human_evolutionary_and_trained_knowledge.png new file mode 100644 index 0000000..ceab2ce Binary files /dev/null and b/images/human_evolutionary_and_trained_knowledge.png differ diff --git a/images/human_vs_machine 1.png b/images/human_vs_machine 1.png new file mode 100644 index 0000000..d75cdad Binary files /dev/null and b/images/human_vs_machine 1.png differ diff --git a/images/human_vs_machine 2.png b/images/human_vs_machine 2.png new file mode 100644 index 0000000..4f899b5 Binary files /dev/null and b/images/human_vs_machine 2.png differ