Was sind Rückstände?

Die lineare Regression ist ein statistisches Werkzeug, mit dem bestimmt wird, wie gut eine gerade Linie zu einem Satz gepaarter Daten passt. Die gerade Linie, die am besten zu diesen Daten passt, wird als Regressionslinie der kleinsten Quadrate bezeichnet. Diese Leitung kann auf verschiedene Arten verwendet werden. Eine dieser Anwendungen besteht darin, den Wert einer Antwortvariablen für einen gegebenen Wert einer erklärenden Variablen zu schätzen. Bezogen auf diese Idee ist die eines Residuums.

Residuen werden durch Subtraktion erhalten. Wir müssen nur den vorhergesagten Wert von subtrahieren y aus dem beobachteten Wert von y für ein bestimmtes x. Das Ergebnis heißt Residuum.

Formel für Reststoffe

Die Formel für Residuen ist einfach:

Rest = beobachtet y - vorhergesagt y

Es ist wichtig zu beachten, dass der vorhergesagte Wert aus unserer Regressionsgeraden stammt. Der beobachtete Wert stammt aus unserem Datensatz.

Beispiele

Wir werden die Verwendung dieser Formel anhand eines Beispiels veranschaulichen. Angenommen, wir erhalten den folgenden Satz gepaarter Daten:

(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)

Durch die Verwendung von Software können wir sehen, dass die Regressionsgerade der kleinsten Quadrate ist y = 2x. Wir werden dies verwenden, um Werte für jeden Wert von vorherzusagen x.

Zum Beispiel, wenn x = 5 sehen wir, dass 2 (5) = 10. Dies gibt uns den Punkt entlang unserer Regressionslinie, der ein hat x Koordinate von 5.

Berechnung des Residuums an den Punkten x = 5 subtrahieren wir den vorhergesagten Wert von unserem beobachteten Wert. Seit der y Die Koordinate unseres Datenpunktes war 9, dies ergibt einen Rest von 9 - 10 = -1.

In der folgenden Tabelle sehen wir, wie alle unsere Residuen für diesen Datensatz berechnet werden:

X Y beobachtet Vorausgesagt y Restwert
1 2 2 0
2 3 4 -1
3 7 6 1
3 6 6 0
4 9 8 1
5 9 10 -1

Merkmale von Rückständen

Nachdem wir ein Beispiel gesehen haben, gibt es ein paar Merkmale von Residuen zu beachten:

  • Residuen sind positiv für Punkte, die über der Regressionslinie liegen.
  • Residuen sind negativ für Punkte, die unter der Regressionslinie liegen.
  • Residuen sind Null für Punkte, die genau entlang der Regressionslinie fallen.
  • Je größer der Absolutwert des Residuums ist, desto weiter liegt der Punkt von der Regressionsgeraden entfernt.
  • Die Summe aller Residuen sollte Null sein. In der Praxis ist diese Summe manchmal nicht genau Null. Der Grund für diese Diskrepanz ist, dass sich Rundungsfehler ansammeln können.

Verwendung von Reststoffen

Es gibt verschiedene Verwendungen für Residuen. Eine Möglichkeit besteht darin, zu ermitteln, ob ein Datensatz einen linearen Gesamttrend aufweist oder ob ein anderes Modell in Betracht gezogen werden sollte. Der Grund dafür ist, dass Residuen dabei helfen, nichtlineare Muster in unseren Daten zu verstärken. Was beim Betrachten eines Streudiagramms möglicherweise schwierig zu erkennen ist, lässt sich durch Untersuchen der Residuen und eines entsprechenden Residuendiagramms leichter beobachten.

Ein weiterer Grund, Residuen zu berücksichtigen, besteht darin, zu überprüfen, ob die Bedingungen für die Inferenz für die lineare Regression erfüllt sind. Nach Überprüfung eines linearen Trends (durch Überprüfen der Residuen) überprüfen wir auch die Verteilung der Residuen. Um eine Regressionsinferenz durchführen zu können, möchten wir, dass die Residuen um unsere Regressionslinie ungefähr normalverteilt sind. Ein Histogramm oder ein Stemplot der Residuen hilft zu überprüfen, ob diese Bedingung erfüllt ist.