Was ist die Interquartil-Range-Regel?

Die Interquartil-Bereichsregel ist nützlich, um das Vorhandensein von Ausreißern zu erkennen. Ausreißer sind Einzelwerte, die außerhalb des Gesamtmusters der übrigen Daten liegen. Diese Definition ist etwas vage und subjektiv, daher ist es hilfreich, eine Regel zu haben, die bei der Prüfung hilft, ob ein Datenpunkt wirklich ein Ausreißer ist.

Die Interquartile Range

Jeder Datensatz kann durch seine Zusammenfassung mit fünf Zahlen beschrieben werden. Diese fünf Zahlen bestehen in aufsteigender Reihenfolge aus:

  • Der minimale oder niedrigste Wert des Datasets
  • Das erste Quartil Q.1 - Dies ist ein Viertel des Weges durch die Liste aller Daten
  • Der Median des Datensatzes - Dies ist der Mittelpunkt der Liste aller Daten
  • Das dritte Quartil Q.3 - Dies entspricht drei Vierteln des Weges durch die Liste aller Daten
  • Der maximale oder höchste Wert des Datensatzes.

Diese fünf Zahlen können verwendet werden, um uns einiges über unsere Daten zu erzählen. Beispielsweise ist der Bereich, der nur das vom Maximum abgezogene Minimum darstellt, ein Indikator für die Verteilung des Datensatzes.

Ähnlich wie der Bereich, jedoch weniger empfindlich für Ausreißer, ist der Interquartilbereich. Der Interquartilbereich wird auf die gleiche Weise berechnet wie der Bereich. Wir subtrahieren nur das erste Quartil vom dritten Quartil:

IQR = Q.3 - Q.1.

Der Interquartilbereich zeigt, wie die Daten über den Median verteilt sind. Es ist weniger anfällig als der Bereich für Ausreißer.

Interquartilregel für Ausreißer

Mithilfe des Interquartilbereichs können Ausreißer erkannt werden. Wir müssen nur Folgendes tun:

  1. Berechnen Sie den Interquartilbereich für unsere Daten
  2. Multiplizieren Sie den Interquartilbereich (IQR) mit der Zahl 1.5
  3. Addiere 1,5 x (IQR) zum dritten Quartil. Jede größere Zahl ist ein vermuteter Ausreißer.
  4. Subtrahieren Sie 1,5 x (IQR) vom ersten Quartil. Jede geringere Anzahl ist ein vermuteter Ausreißer.

Es ist wichtig, sich daran zu erinnern, dass dies eine Faustregel ist und im Allgemeinen gilt. Im Allgemeinen sollten wir unsere Analyse weiterverfolgen. Alle potenziellen Ausreißer, die mit dieser Methode festgestellt werden, sollten im Kontext des gesamten Datensatzes untersucht werden.

Beispiel

Wir werden diese Interquartil-Bereichsregel anhand eines numerischen Beispiels sehen. Angenommen, wir haben den folgenden Datensatz: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Die Zusammenfassung mit fünf Zahlen für diesen Datensatz ist minimal = 1, erstes Quartil = 4, Median = 7, drittes Quartil = 10 und Maximum = 17. Wir können uns die Daten ansehen und sagen, dass 17 ein Ausreißer ist. Aber was sagt unsere Interquartil-Range-Regel aus??

Wir berechnen den zu berechnenden Interquartilbereich

Q.3 - Q.1 = 10 - 4 = 6

Wir multiplizieren jetzt mit 1,5 und haben 1,5 x 6 = 9. Neun weniger als das erste Quartil ist 4 - 9 = -5. Keine Daten sind kleiner als diese. Neun mehr als das dritte Quartil sind 10 + 9 = 19. Keine Daten sind größer als diese. Obwohl der Maximalwert fünf mehr als der nächstgelegene Datenpunkt ist, zeigt die Interquartilbereichsregel, dass er für diesen Datensatz wahrscheinlich nicht als Ausreißer angesehen werden sollte.