Empirische Beziehung zwischen Mittelwert, Median und Modus

Innerhalb von Datensätzen gibt es verschiedene beschreibende Statistiken. Der Mittelwert, der Median und der Modus geben alle Maße für die Mitte der Daten an, aber sie berechnen dies auf unterschiedliche Weise:

  • Der Mittelwert wird berechnet, indem alle Datenwerte addiert und dann durch die Gesamtzahl der Werte dividiert werden.
  • Der Median wird berechnet, indem die Datenwerte in aufsteigender Reihenfolge aufgelistet werden und dann der mittlere Wert in der Liste gefunden wird.
  • Der Modus wird berechnet, indem gezählt wird, wie oft jeder Wert auftritt. Der Wert, der mit der höchsten Frequenz auftritt, ist der Modus.

Oberflächlich betrachtet scheint es keinen Zusammenhang zwischen diesen drei Zahlen zu geben. Es stellt sich jedoch heraus, dass zwischen diesen Mittelpunktsmaßen ein empirischer Zusammenhang besteht.

Theoretisch vs. empirisch

Bevor wir fortfahren, ist es wichtig zu verstehen, wovon wir sprechen, wenn wir uns auf eine empirische Beziehung beziehen und diese mit theoretischen Studien vergleichen. Einige statistische Ergebnisse und andere Wissensgebiete lassen sich theoretisch aus früheren Aussagen ableiten. Wir beginnen mit dem, was wir wissen, und verwenden dann Logik, Mathematik und deduktives Denken, um zu sehen, wohin uns dies führt. Das Ergebnis ist eine direkte Folge anderer bekannter Tatsachen.

Im Gegensatz zur Theorie steht die empirische Art des Wissenserwerbs. Anstatt aus bereits festgelegten Prinzipien zu schließen, können wir die Welt um uns herum beobachten. Aus diesen Beobachtungen können wir dann eine Erklärung für das formulieren, was wir gesehen haben. Ein Großteil der Wissenschaft wird auf diese Weise betrieben. Experimente geben uns empirische Daten. Das Ziel ist dann, eine Erklärung zu formulieren, die zu allen Daten passt.

Empirische Beziehung

In der Statistik gibt es eine Beziehung zwischen Mittelwert, Median und Modus, die empirisch basiert. Beobachtungen unzähliger Datensätze haben gezeigt, dass der Unterschied zwischen Mittelwert und Modus in den meisten Fällen das Dreifache des Unterschieds zwischen Mittelwert und Medianwert beträgt. Diese Beziehung in Gleichungsform ist:

Mittelwert - Modus = 3 (Mittelwert - Median).

Beispiel

Sehen wir uns die oben genannten Zusammenhänge mit Daten aus der realen Welt im Jahr 2010 an. In Millionen waren dies: Kalifornien (36,4), Texas (23,5), New York (19,3), Florida (18,1), Illinois (12,8). Pennsylvania - 12,4, Ohio - 11,5, Michigan - 10,1, Georgia - 9,4, North Carolina - 8,9, New Jersey - 8,7, Virginia - 7,6, Massachusetts - 6,4, Washington - 6,4, Indiana - 6,3, Arizona - 6,2, Tennessee - 6,0, Missouri - 5,8, Maryland - 5,6, Wisconsin - 5,6, Minnesota - 5,2, Colorado - 4,8, Alabama - 4,6, South Carolina - 4,3, Louisiana - 4,3, Kentucky - 4,2, Oregon - 3,7, Oklahoma - 3,6, Connecticut - 3,5, Iowa - 3,0, Mississippi - 2,9, Arkansas - 2,8, Kansas - 2,8, Utah - 2,6, Nevada - 2,5, New Mexico - 2,0, West Virginia - 1,8, Nebraska - 1,8, Idaho - 1,5, Maine - 1,3, New Hampshire - 1,3, Hawaii - 1.3, Rhode Island - 1.1, Montana - .9, Delaware - .9, South Dakota - .8, Alaska - .7, North Dakota - .6, Vermont - .6, Wyoming - .5

Die durchschnittliche Bevölkerung beträgt 6,0 Millionen. Die Durchschnittsbevölkerung beträgt 4,25 Millionen. Der Modus ist 1,3 Millionen. Jetzt berechnen wir die Unterschiede zu den oben genannten:

  • Mittelwert - Modus = 6,0 Millionen - 1,3 Millionen = 4,7 Millionen.
  • 3 (Mittelwert - Median) = 3 (6,0 Millionen - 4,25 Millionen) = 3 (1,75 Millionen) = 5,25 Millionen.

Diese beiden Differenzzahlen stimmen zwar nicht genau überein, liegen aber relativ nahe beieinander.

Anwendung

Es gibt einige Anwendungen für die obige Formel. Angenommen, wir haben keine Liste mit Datenwerten, kennen aber zwei Mittelwerte, den Median oder den Modus. Die obige Formel könnte verwendet werden, um die dritte unbekannte Größe zu schätzen.

Wenn wir beispielsweise wissen, dass wir einen Mittelwert von 10 haben, einen Modus von 4, wie hoch ist der Median unseres Datensatzes? Da Mean - Mode = 3 (Mean - Median) ist, können wir sagen, dass 10 - 4 = 3 (10 - Median). Durch eine Algebra sehen wir, dass 2 = (10 - Median), und so ist der Median unserer Daten 8.

Eine andere Anwendung der obigen Formel ist die Berechnung der Schiefe. Da die Schiefe die Differenz zwischen Mittelwert und Modus misst, könnten wir stattdessen 3 (Mittelwert - Modus) berechnen. Um diese Größe dimensionslos zu machen, können wir sie durch die Standardabweichung dividieren, um eine andere Methode zur Berechnung der Schiefe als die Verwendung von Momenten in Statistiken zu erhalten.

Ein Wort der Warnung

Wie oben gesehen, ist das oben Gesagte keine exakte Beziehung. Stattdessen ist es eine gute Faustregel, ähnlich der der Bereichsregel, die eine ungefähre Verbindung zwischen der Standardabweichung und dem Bereich herstellt. Der Mittelwert, der Median und der Modus passen möglicherweise nicht genau in die obige empirische Beziehung, aber es besteht eine gute Chance, dass sie einigermaßen nah beieinander liegen.