Den Interquartilbereich in der Statistik verstehen

Der Interquartilbereich (IQR) ist die Differenz zwischen dem ersten und dem dritten Quartil. Die Formel dafür lautet:

IQR = Q3 - Q.1

Es gibt viele Messungen der Variabilität eines Datensatzes. Sowohl der Bereich als auch die Standardabweichung geben Auskunft über die Streuung unserer Daten. Das Problem mit diesen deskriptiven Statistiken ist, dass sie für Ausreißer sehr empfindlich sind. Ein Maß für die Ausbreitung eines Datensatzes, der resistenter gegen das Vorhandensein von Ausreißern ist, ist der Interquartilbereich.

Definition von Interquartilbereich

Wie oben gezeigt, basiert der Interquartilbereich auf der Berechnung anderer Statistiken. Bevor wir den Interquartilbereich bestimmen, müssen wir zuerst die Werte des ersten und dritten Quartils kennen. (Das erste und dritte Quartil hängen natürlich vom Wert des Medians ab.).

Sobald wir die Werte des ersten und dritten Quartils ermittelt haben, ist der Interquartilbereich sehr einfach zu berechnen. Alles was wir tun müssen, ist das erste Quartil vom dritten Quartil zu subtrahieren. Dies erklärt die Verwendung des Begriffs Interquartilbereich für diese Statistik.

Beispiel

Um ein Beispiel für die Berechnung eines Interquartilbereichs zu sehen, betrachten wir den Datensatz: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. Die Fünf-Zahlen-Zusammenfassung dafür Datensatz ist:

  • Minimum von 2
  • Erstes Quartil von 3.5
  • Median von 6
  • Drittes Viertel von 8
  • Maximal 9

Wir sehen also, dass der Interquartilbereich 8 - 3,5 = 4,5 beträgt.

Die Bedeutung des Interquartils

Der Bereich gibt uns ein Maß dafür, wie verteilt die Gesamtheit unseres Datensatzes ist. Der Interquartilbereich, der den Abstand zwischen erstem und drittem Quartil angibt, gibt an, wie verteilt die mittleren 50% unserer Datenmenge sind.

Widerstand gegen Ausreißer

Der Hauptvorteil der Verwendung des Interquartilbereichs anstelle des Bereichs für die Messung der Streuung eines Datensatzes besteht darin, dass der Interquartilbereich nicht für Ausreißer empfindlich ist. Um dies zu sehen, schauen wir uns ein Beispiel an.

Aus dem obigen Datensatz haben wir einen Interquartilbereich von 3,5, einen Bereich von 9 - 2 = 7 und eine Standardabweichung von 2,34. Wenn wir den höchsten Wert von 9 durch einen extremen Ausreißer von 100 ersetzen, beträgt die Standardabweichung 27,37 und der Bereich 98. Auch wenn sich diese Werte drastisch verschieben, bleiben das erste und dritte Quartil und damit der Interquartilbereich unberührt ändert sich nicht.

Verwendung des Interquartile Range

Der Interquartilbereich ist nicht nur ein weniger sensitives Maß für die Verbreitung eines Datensatzes, sondern hat auch eine weitere wichtige Verwendung. Aufgrund seiner Beständigkeit gegen Ausreißer ist der Interquartilbereich nützlich, um zu identifizieren, wann ein Wert ein Ausreißer ist.

Die Interquartil-Range-Regel sagt uns, ob wir einen milden oder starken Ausreißer haben. Um nach einem Ausreißer zu suchen, müssen wir unterhalb des ersten Quartils oder oberhalb des dritten Quartils suchen. Wie weit wir gehen sollten, hängt vom Wert des Interquartilbereichs ab.