Die lineare Regression ist ein statistisches Werkzeug, mit dem bestimmt wird, wie gut eine gerade Linie zu einem Satz gepaarter Daten passt. Die gerade Linie, die am besten zu diesen Daten passt, wird als Regressionslinie der kleinsten Quadrate bezeichnet. Diese Leitung kann auf verschiedene Arten verwendet werden. Eine dieser Anwendungen besteht darin, den Wert einer Antwortvariablen für einen gegebenen Wert einer erklärenden Variablen zu schätzen. Bezogen auf diese Idee ist die eines Residuums.
Residuen werden durch Subtraktion erhalten. Wir müssen nur den vorhergesagten Wert von subtrahieren y aus dem beobachteten Wert von y für ein bestimmtes x. Das Ergebnis heißt Residuum.
Die Formel für Residuen ist einfach:
Rest = beobachtet y - vorhergesagt y
Es ist wichtig zu beachten, dass der vorhergesagte Wert aus unserer Regressionsgeraden stammt. Der beobachtete Wert stammt aus unserem Datensatz.
Wir werden die Verwendung dieser Formel anhand eines Beispiels veranschaulichen. Angenommen, wir erhalten den folgenden Satz gepaarter Daten:
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
Durch die Verwendung von Software können wir sehen, dass die Regressionsgerade der kleinsten Quadrate ist y = 2x. Wir werden dies verwenden, um Werte für jeden Wert von vorherzusagen x.
Zum Beispiel, wenn x = 5 sehen wir, dass 2 (5) = 10. Dies gibt uns den Punkt entlang unserer Regressionslinie, der ein hat x Koordinate von 5.
Berechnung des Residuums an den Punkten x = 5 subtrahieren wir den vorhergesagten Wert von unserem beobachteten Wert. Seit der y Die Koordinate unseres Datenpunktes war 9, dies ergibt einen Rest von 9 - 10 = -1.
In der folgenden Tabelle sehen wir, wie alle unsere Residuen für diesen Datensatz berechnet werden:
X | Y beobachtet | Vorausgesagt y | Restwert |
1 | 2 | 2 | 0 |
2 | 3 | 4 | -1 |
3 | 7 | 6 | 1 |
3 | 6 | 6 | 0 |
4 | 9 | 8 | 1 |
5 | 9 | 10 | -1 |
Nachdem wir ein Beispiel gesehen haben, gibt es ein paar Merkmale von Residuen zu beachten:
Es gibt verschiedene Verwendungen für Residuen. Eine Möglichkeit besteht darin, zu ermitteln, ob ein Datensatz einen linearen Gesamttrend aufweist oder ob ein anderes Modell in Betracht gezogen werden sollte. Der Grund dafür ist, dass Residuen dabei helfen, nichtlineare Muster in unseren Daten zu verstärken. Was beim Betrachten eines Streudiagramms möglicherweise schwierig zu erkennen ist, lässt sich durch Untersuchen der Residuen und eines entsprechenden Residuendiagramms leichter beobachten.
Ein weiterer Grund, Residuen zu berücksichtigen, besteht darin, zu überprüfen, ob die Bedingungen für die Inferenz für die lineare Regression erfüllt sind. Nach Überprüfung eines linearen Trends (durch Überprüfen der Residuen) überprüfen wir auch die Verteilung der Residuen. Um eine Regressionsinferenz durchführen zu können, möchten wir, dass die Residuen um unsere Regressionslinie ungefähr normalverteilt sind. Ein Histogramm oder ein Stemplot der Residuen hilft zu überprüfen, ob diese Bedingung erfüllt ist.