Bei der Betrachtung eines Streudiagramms sind viele Fragen zu stellen. Eine der häufigsten ist, wie gut sich eine gerade Linie den Daten annähert. Um dies zu beantworten, gibt es eine beschreibende Statistik, die als Korrelationskoeffizient bezeichnet wird. Wir werden sehen, wie diese Statistik berechnet wird.
Der Korrelationskoeffizient, bezeichnet mit r gibt an, wie genau die Daten in einem Streudiagramm auf einer geraden Linie liegen. Je näher der absolute Wert von r Je besser eins ist, desto besser werden die Daten durch eine lineare Gleichung beschrieben. Wenn r = 1 oder r = -1 dann ist der Datensatz perfekt ausgerichtet. Datensätze mit Werten von r nahe Null zeigen wenig bis keine geradlinige Beziehung.
Aufgrund der langwierigen Berechnungen ist es am besten zu berechnen r mit dem Einsatz eines Taschenrechners oder einer Statistiksoftware. Es lohnt sich jedoch immer, zu wissen, was Ihr Rechner bei der Berechnung tut. Was folgt, ist ein Prozess zum Berechnen des Korrelationskoeffizienten hauptsächlich von Hand mit einem Rechner, der für die Routinearithmetikschritte verwendet wird.
Wir beginnen mit der Auflistung der Schritte zur Berechnung des Korrelationskoeffizienten. Die Daten, mit denen wir arbeiten, sind gepaarte Daten, von denen jedes Paar mit (xich,yich).
Dieser Prozess ist nicht schwer und jeder Schritt ist ziemlich routinemäßig, aber das Sammeln all dieser Schritte ist ziemlich aufwendig. Die Berechnung der Standardabweichung ist alleine schon mühsam genug. Die Berechnung des Korrelationskoeffizienten beinhaltet jedoch nicht nur zwei Standardabweichungen, sondern eine Vielzahl anderer Operationen.
Um genau zu sehen, wie der Wert von r erhalten wird, schauen wir uns ein Beispiel an. Auch hier ist zu beachten, dass wir für praktische Anwendungen unseren Taschenrechner oder unsere Statistiksoftware zur Berechnung verwenden möchten r für uns.
Wir beginnen mit einer Auflistung gepaarter Daten: (1, 1), (2, 3), (4, 5), (5,7). Der Mittelwert der x Werte, der Mittelwert von 1, 2, 4 und 5 ist x̄ = 3. Wir haben auch ȳ = 4. Die Standardabweichung von x Werte ist sx = 1,83 und sy = 2,58. In der folgenden Tabelle sind die anderen Berechnungen zusammengefasst, die für erforderlich sind r. Die Summe der Produkte in der rechten Spalte ist 2.969848. Da es insgesamt vier Punkte gibt und 4 - 1 = 3, dividieren wir die Summe der Produkte durch 3. Dies ergibt einen Korrelationskoeffizienten von r = 2,969848 / 3 = 0,989949.
x | y | zx | zy | zxzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1,272792057 |
2 | 3 | -0,547722515 | -0,387298319 | 0,212132009 |
4 | 5 | 0,547722515 | 0,387298319 | 0,212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1,272792057 |