Manchmal kommen numerische Daten paarweise vor. Vielleicht misst ein Paläontologe die Länge des Oberschenkelknochens (Beinknochen) und des Oberarmknochens (Armknochen) in fünf Fossilien derselben Dinosaurierart. Es kann sinnvoll sein, die Armlängen getrennt von den Beinlängen zu betrachten und beispielsweise den Mittelwert oder die Standardabweichung zu berechnen. Was aber, wenn der Forscher neugierig ist, ob zwischen diesen beiden Messungen ein Zusammenhang besteht? Es reicht nicht aus, nur die Arme getrennt von den Beinen zu betrachten. Stattdessen sollte der Paläontologe die Knochenlängen für jedes Skelett koppeln und einen statistischen Bereich verwenden, der als Korrelation bekannt ist.
Was ist Korrelation? Nehmen wir im obigen Beispiel an, dass der Forscher die Daten studierte und das nicht sehr überraschende Ergebnis erzielte, dass Dinosaurierfossilien mit längeren Armen auch längere Beine hatten und Fossilien mit kürzeren Armen kürzere Beine hatten. Ein Streudiagramm der Daten zeigte, dass die Datenpunkte alle in der Nähe einer geraden Linie gruppiert waren. Der Forscher würde dann sagen, dass es eine starke geradlinige Beziehung gibt, oder Korrelation, zwischen den Längen der Armknochen und Beinknochen der Fossilien. Es bedarf noch einiger Arbeit, um festzustellen, wie stark die Korrelation ist.
Da jeder Datenpunkt zwei Zahlen darstellt, ist ein zweidimensionales Streudiagramm eine große Hilfe bei der Visualisierung der Daten. Angenommen, wir haben tatsächlich die Dinosaurierdaten in der Hand und die fünf Fossilien haben die folgenden Maße:
Ein Streudiagramm der Daten mit Femurmessung in horizontaler Richtung und Humerusmessung in vertikaler Richtung ergibt die obige Grafik. Jeder Punkt repräsentiert die Maße eines der Skelette. Beispielsweise entspricht der Punkt unten links dem Skelett Nr. 1. Der Punkt oben rechts ist das Skelett Nr. 5.
Es sieht sicherlich so aus, als könnten wir eine gerade Linie zeichnen, die allen Punkten sehr nahe kommt. Aber wie können wir sicher sagen? Nähe liegt im Auge des Betrachters. Woher wissen wir, dass unsere Definition von "Nähe" mit jemand anderem übereinstimmt? Gibt es eine Möglichkeit, diese Nähe zu quantifizieren??
Um objektiv zu messen, wie nahe die Daten an einer geraden Linie liegen, hilft der Korrelationskoeffizient. Der Korrelationskoeffizient, typischerweise bezeichnet r, ist eine reelle Zahl zwischen -1 und 1. Der Wert von r Misst die Stärke einer Korrelation basierend auf einer Formel, wobei jegliche Subjektivität im Prozess beseitigt wird. Bei der Interpretation des Werts von sind mehrere Richtlinien zu beachten r.
Die Formel für den Korrelationskoeffizienten r ist kompliziert, wie man hier sieht. Die Bestandteile der Formel sind die Mittelwerte und Standardabweichungen beider Sätze von numerischen Daten sowie die Anzahl der Datenpunkte. Für die meisten praktischen Anwendungen r ist mühsam von Hand zu berechnen. Wenn unsere Daten mit statistischen Befehlen in einen Taschenrechner oder ein Tabellenkalkulationsprogramm eingegeben wurden, gibt es normalerweise eine integrierte Funktion zum Berechnen r.
Obwohl Korrelation ein mächtiges Werkzeug ist, gibt es einige Einschränkungen bei der Verwendung: