22 lines
1.4 KiB
TeX

\chapter{Big Data}
\label{big data}
Mithilfe von riesigen Datenmengen ist es \textbf{scheinbar} möglich Beziehungen zu erkennen, die zuvor nicht erkennbar waren.
Viele Leute setzen sich sogar nach dem Prinzip \say{with enough data the numbers speak for themselves} dafür ein,
die erkannten Beziehungen als bewiesen zu akzeptieren ohne die zugrundeliegende Logik zu hinterfragen.
Diese als \say{Big Data Philosphie} bezeichnete Ansicht beruht allerdings auf einem Trugschluss.
\Huge
{\color{red}$$\text{Correlation}\ne\text{Causation}$$}
\normalsize
Dieser Fehlschluss wird auch als \say{cum hoc, ergo propter hoc} (zusammen hiermit, daher hiervon verursacht) bezeichnet.
Allgemein gibt es 5 mögliche Erklärungen für die Korrelation von Daten:\\
\includegraphics[width = \textwidth]{correlation_reasons.png}\\
Im 5. Fall spricht man von einer \textbf{Scheinkorrelation}.
Diese müssen schon rein aus statistischen Gründen in ausreichend großen Datenmengen auftauchen.
\section{Korrelationsarten}
\label{big data: types of correlation}
Meist werden bei der Untersuchung von Korrelationen nur die linearen Korrelation betrachtet.
Dies greift allerdings zu kurz, da Eigenschaften auch auf ganz andere Art und Weise miteinander korrelieren können:\\
\includegraphics[width = \textwidth]{types of correlation.png}