Ein Streudiagramm ist ein Diagrammtyp, mit dem gepaarte Daten dargestellt werden. Die erklärende Variable ist entlang der horizontalen Achse aufgetragen und die Antwortvariable ist entlang der vertikalen Achse grafisch dargestellt. Ein Grund für die Verwendung dieses Diagrammtyps ist die Suche nach Beziehungen zwischen den Variablen.
Das grundlegendste Muster, nach dem in einem Satz gepaarter Daten gesucht werden muss, ist das einer geraden Linie. Durch zwei beliebige Punkte können wir eine gerade Linie zeichnen. Wenn sich mehr als zwei Punkte in unserem Streudiagramm befinden, können wir die meiste Zeit nicht mehr eine Linie zeichnen, die durch jeden Punkt verläuft. Stattdessen zeichnen wir eine Linie, die durch die Mitte der Punkte verläuft und den gesamten linearen Trend der Daten anzeigt.
Wenn wir uns die Punkte in unserer Grafik ansehen und eine Linie durch diese Punkte ziehen möchten, entsteht eine Frage. Welche Linie sollen wir ziehen? Es gibt unendlich viele Linien, die gezeichnet werden könnten. Wenn wir nur unsere Augen verwenden, ist klar, dass jede Person, die auf das Streudiagramm schaut, eine etwas andere Linie erzeugen kann. Diese Mehrdeutigkeit ist ein Problem. Wir möchten, dass jeder die gleiche Linie erhält. Ziel ist eine mathematisch genaue Beschreibung, welche Linie gezeichnet werden soll. Die Regressionsgerade der kleinsten Quadrate ist eine solche Linie durch unsere Datenpunkte.
Der Name der Linie mit den kleinsten Quadraten erklärt, was sie tut. Wir beginnen mit einer Punktesammlung mit Koordinaten, die gegeben sind durch (xich, yich). Jede gerade Linie verläuft zwischen diesen Punkten und verläuft entweder über oder unter jedem dieser Punkte. Wir können die Entfernungen von diesen Punkten zur Linie berechnen, indem wir einen Wert von wählen x und dann das beobachtete subtrahieren y Koordinate, die diesem entspricht x von dem y Koordinate unserer Linie.
Unterschiedliche Linien durch denselben Punktesatz würden einen unterschiedlichen Abstandssatz ergeben. Wir möchten, dass diese Abstände so klein wie möglich sind. Aber es gibt ein Problem. Da unsere Entfernungen entweder positiv oder negativ sein können, heben sich alle diese Entfernungen gegenseitig auf. Die Summe der Abstände ist immer gleich Null.
Die Lösung für dieses Problem besteht darin, alle negativen Zahlen durch Quadrieren der Abstände zwischen den Punkten und der Linie zu beseitigen. Dies ergibt eine Sammlung von nichtnegativen Zahlen. Das Ziel, eine Linie mit der besten Anpassung zu finden, ist dasselbe, als die Summe dieser quadratischen Abstände so klein wie möglich zu machen. Kalkül kommt hier zur Rettung. Der Differenzierungsprozess in der Analysis ermöglicht es, die Summe der quadratischen Abstände von einer gegebenen Linie zu minimieren. Dies erklärt den Ausdruck "kleinste Quadrate" in unserem Namen für diese Zeile.
Da die Linie mit den kleinsten Quadraten die quadratischen Abstände zwischen der Linie und unseren Punkten minimiert, können wir uns diese Linie als diejenige vorstellen, die am besten zu unseren Daten passt. Aus diesem Grund wird die Linie der kleinsten Quadrate auch als die Linie der besten Anpassung bezeichnet. Von allen möglichen Linien, die gezeichnet werden könnten, ist die Linie mit den kleinsten Quadraten dem gesamten Datensatz am nächsten. Dies kann bedeuten, dass unsere Linie keinen der Punkte in unserem Datensatz trifft.
Es gibt einige Merkmale, die jede Linie der kleinsten Quadrate besitzt. Der erste interessante Punkt befasst sich mit der Steigung unserer Linie. Die Steigung hat einen Zusammenhang mit dem Korrelationskoeffizienten unserer Daten. Tatsächlich ist die Steigung der Linie gleich r (sy/ sx). Hier s x bezeichnet die Standardabweichung der x Koordinaten und s y die Standardabweichung der y Koordinaten unserer Daten. Das Vorzeichen des Korrelationskoeffizienten steht in direktem Zusammenhang mit dem Vorzeichen der Steigung unserer Linie kleinster Quadrate.
Ein weiteres Merkmal der Linie der kleinsten Quadrate betrifft einen Punkt, den sie durchläuft. Während y Der Schnittpunkt einer Linie der kleinsten Quadrate ist unter statistischen Gesichtspunkten möglicherweise nicht interessant, es gibt jedoch einen Punkt. Jede Linie mit den kleinsten Quadraten verläuft durch den Mittelpunkt der Daten. Dieser Mittelpunkt hat eine x Koordinate, die der Mittelwert der ist x Werte und a y Koordinate, die der Mittelwert der ist y Werte.