Die Steigung der Regressionsgeraden und der Korrelationskoeffizient

Oft ist es beim Studium der Statistik wichtig, Verbindungen zwischen verschiedenen Themen herzustellen. Wir werden ein Beispiel dafür sehen, bei dem die Steigung der Regressionslinie direkt mit dem Korrelationskoeffizienten zusammenhängt. Da diese Konzepte beide gerade Linien beinhalten, ist es nur natürlich, die Frage zu stellen: "Wie hängen der Korrelationskoeffizient und die kleinste quadratische Linie zusammen?" 

Zunächst werden wir einige Hintergründe zu diesen beiden Themen untersuchen.

Details zur Korrelation

Es ist wichtig, sich an die Details zu erinnern, die sich auf den Korrelationskoeffizienten beziehen, der mit bezeichnet ist r. Diese Statistik wird verwendet, wenn wir quantitative Daten gepaart haben. Aus einem Streudiagramm dieser gepaarten Daten können wir Trends in der Gesamtverteilung der Daten ermitteln. Einige gepaarte Daten weisen ein lineares oder gerades Linienmuster auf. In der Praxis fallen die Daten jedoch nie genau auf einer geraden Linie.

Mehrere Personen, die dasselbe Streudiagramm gepaarter Daten betrachten, sind sich nicht einig darüber, wie nahe es an der Darstellung eines linearen Gesamttrends liegt. Schließlich können unsere Kriterien dafür etwas subjektiv sein. Die Skala, die wir verwenden, kann auch unsere Wahrnehmung der Daten beeinflussen. Aus diesen und weiteren Gründen benötigen wir eine Art objektives Maß, um festzustellen, wie nahe unsere gepaarten Daten an der Linearität liegen. Der Korrelationskoeffizient erreicht dies für uns.

Ein paar grundlegende Fakten über r umfassen:

  • Der Wert von r liegt zwischen einer reellen Zahl von -1 bis 1.
  • Werte von r Nahe 0 bedeutet, dass zwischen den Daten nur eine geringe bis keine lineare Beziehung besteht.
  • Werte von r Nahe 1 bedeutet, dass eine positive lineare Beziehung zwischen den Daten besteht. Dies bedeutet, dass als x erhöht das y steigt auch.
  • Werte von r Nahe -1 bedeutet, dass eine negative lineare Beziehung zwischen den Daten besteht. Dies bedeutet, dass als x erhöht das y nimmt ab.

Die Steigung der Linie der kleinsten Quadrate

Die letzten beiden Punkte in der obigen Liste weisen uns auf die Steigung der Linie der kleinsten Quadrate mit der besten Anpassung hin. Denken Sie daran, dass die Neigung einer Linie ein Maß dafür ist, um wie viele Einheiten sie für jede Einheit nach oben oder unten geht, die wir nach rechts bewegen. Manchmal wird dies als der Anstieg der Linie durch den Lauf oder die Änderung in angegeben y Werte geteilt durch die Änderung in x Werte.

Im Allgemeinen haben gerade Linien Steigungen, die positiv, negativ oder null sind. Wenn wir unsere kleinsten quadratischen Regressionsgeraden untersuchen und die entsprechenden Werte von vergleichen würden r, Wir würden feststellen, dass jedes Mal, wenn unsere Daten einen negativen Korrelationskoeffizienten aufweisen, die Steigung der Regressionslinie negativ ist. In ähnlicher Weise ist für jedes Mal, wenn wir einen positiven Korrelationskoeffizienten haben, die Steigung der Regressionslinie positiv.

Aus dieser Beobachtung sollte ersichtlich sein, dass es definitiv einen Zusammenhang zwischen dem Vorzeichen des Korrelationskoeffizienten und der Steigung der Linie der kleinsten Quadrate gibt. Es bleibt zu erklären, warum dies wahr ist.

Die Formel für die Piste

Der Grund für die Verbindung zwischen dem Wert von r und die Steigung der Linie der kleinsten Quadrate hat mit der Formel zu tun, die uns die Steigung dieser Linie gibt. Für gepaarte Daten (x, y) bezeichnen wir die Standardabweichung der x Daten von sx und die Standardabweichung der y Daten von sy.

Die Formel für die Steigung ein der Regressionsgeraden ist:

  • a = r (sy/ sx)

Bei der Berechnung einer Standardabweichung wird die positive Quadratwurzel einer nichtnegativen Zahl verwendet. Folglich dürfen beide Standardabweichungen in der Formel für die Steigung nicht negativ sein. Wenn wir annehmen, dass es Abweichungen in unseren Daten gibt, können wir die Möglichkeit außer Acht lassen, dass eine dieser Standardabweichungen Null ist. Daher ist das Vorzeichen des Korrelationskoeffizienten dasselbe wie das Vorzeichen der Steigung der Regressionslinie.