Innerhalb von Datensätzen gibt es verschiedene beschreibende Statistiken. Der Mittelwert, der Median und der Modus geben alle Maße für die Mitte der Daten an, aber sie berechnen dies auf unterschiedliche Weise:
Oberflächlich betrachtet scheint es keinen Zusammenhang zwischen diesen drei Zahlen zu geben. Es stellt sich jedoch heraus, dass zwischen diesen Mittelpunktsmaßen ein empirischer Zusammenhang besteht.
Bevor wir fortfahren, ist es wichtig zu verstehen, wovon wir sprechen, wenn wir uns auf eine empirische Beziehung beziehen und diese mit theoretischen Studien vergleichen. Einige statistische Ergebnisse und andere Wissensgebiete lassen sich theoretisch aus früheren Aussagen ableiten. Wir beginnen mit dem, was wir wissen, und verwenden dann Logik, Mathematik und deduktives Denken, um zu sehen, wohin uns dies führt. Das Ergebnis ist eine direkte Folge anderer bekannter Tatsachen.
Im Gegensatz zur Theorie steht die empirische Art des Wissenserwerbs. Anstatt aus bereits festgelegten Prinzipien zu schließen, können wir die Welt um uns herum beobachten. Aus diesen Beobachtungen können wir dann eine Erklärung für das formulieren, was wir gesehen haben. Ein Großteil der Wissenschaft wird auf diese Weise betrieben. Experimente geben uns empirische Daten. Das Ziel ist dann, eine Erklärung zu formulieren, die zu allen Daten passt.
In der Statistik gibt es eine Beziehung zwischen Mittelwert, Median und Modus, die empirisch basiert. Beobachtungen unzähliger Datensätze haben gezeigt, dass der Unterschied zwischen Mittelwert und Modus in den meisten Fällen das Dreifache des Unterschieds zwischen Mittelwert und Medianwert beträgt. Diese Beziehung in Gleichungsform ist:
Mittelwert - Modus = 3 (Mittelwert - Median).
Sehen wir uns die oben genannten Zusammenhänge mit Daten aus der realen Welt im Jahr 2010 an. In Millionen waren dies: Kalifornien (36,4), Texas (23,5), New York (19,3), Florida (18,1), Illinois (12,8). Pennsylvania - 12,4, Ohio - 11,5, Michigan - 10,1, Georgia - 9,4, North Carolina - 8,9, New Jersey - 8,7, Virginia - 7,6, Massachusetts - 6,4, Washington - 6,4, Indiana - 6,3, Arizona - 6,2, Tennessee - 6,0, Missouri - 5,8, Maryland - 5,6, Wisconsin - 5,6, Minnesota - 5,2, Colorado - 4,8, Alabama - 4,6, South Carolina - 4,3, Louisiana - 4,3, Kentucky - 4,2, Oregon - 3,7, Oklahoma - 3,6, Connecticut - 3,5, Iowa - 3,0, Mississippi - 2,9, Arkansas - 2,8, Kansas - 2,8, Utah - 2,6, Nevada - 2,5, New Mexico - 2,0, West Virginia - 1,8, Nebraska - 1,8, Idaho - 1,5, Maine - 1,3, New Hampshire - 1,3, Hawaii - 1.3, Rhode Island - 1.1, Montana - .9, Delaware - .9, South Dakota - .8, Alaska - .7, North Dakota - .6, Vermont - .6, Wyoming - .5
Die durchschnittliche Bevölkerung beträgt 6,0 Millionen. Die Durchschnittsbevölkerung beträgt 4,25 Millionen. Der Modus ist 1,3 Millionen. Jetzt berechnen wir die Unterschiede zu den oben genannten:
Diese beiden Differenzzahlen stimmen zwar nicht genau überein, liegen aber relativ nahe beieinander.
Es gibt einige Anwendungen für die obige Formel. Angenommen, wir haben keine Liste mit Datenwerten, kennen aber zwei Mittelwerte, den Median oder den Modus. Die obige Formel könnte verwendet werden, um die dritte unbekannte Größe zu schätzen.
Wenn wir beispielsweise wissen, dass wir einen Mittelwert von 10 haben, einen Modus von 4, wie hoch ist der Median unseres Datensatzes? Da Mean - Mode = 3 (Mean - Median) ist, können wir sagen, dass 10 - 4 = 3 (10 - Median). Durch eine Algebra sehen wir, dass 2 = (10 - Median), und so ist der Median unserer Daten 8.
Eine andere Anwendung der obigen Formel ist die Berechnung der Schiefe. Da die Schiefe die Differenz zwischen Mittelwert und Modus misst, könnten wir stattdessen 3 (Mittelwert - Modus) berechnen. Um diese Größe dimensionslos zu machen, können wir sie durch die Standardabweichung dividieren, um eine andere Methode zur Berechnung der Schiefe als die Verwendung von Momenten in Statistiken zu erhalten.
Wie oben gesehen, ist das oben Gesagte keine exakte Beziehung. Stattdessen ist es eine gute Faustregel, ähnlich der der Bereichsregel, die eine ungefähre Verbindung zwischen der Standardabweichung und dem Bereich herstellt. Der Mittelwert, der Median und der Modus passen möglicherweise nicht genau in die obige empirische Beziehung, aber es besteht eine gute Chance, dass sie einigermaßen nah beieinander liegen.