Wie werden Ausreißer in der Statistik ermittelt?

Ausreißer sind Datenwerte, die sich stark von den meisten Daten unterscheiden. Diese Werte liegen außerhalb eines Gesamttrends, der in den Daten vorhanden ist. Eine sorgfältige Prüfung eines Datensatzes auf Ausreißer verursacht einige Schwierigkeiten. Obwohl leicht zu erkennen ist, dass sich einige Werte möglicherweise von den übrigen Daten unterscheiden, wie stark muss der Wert abweichen, um als Ausreißer zu gelten? Wir werden uns eine spezifische Messung ansehen, die uns einen objektiven Maßstab für das gibt, was einen Ausreißer ausmacht.

Interquartilbereich

Anhand des Interquartilbereichs können wir feststellen, ob ein Extremwert tatsächlich ein Ausreißer ist. Der Interquartilbereich basiert auf einem Teil der fünfstelligen Zusammenfassung eines Datensatzes, nämlich dem ersten Quartil und dem dritten Quartil. Die Berechnung des Interquartilbereichs umfasst eine einzige arithmetische Operation. Alles, was wir tun müssen, um den Interquartilbereich zu finden, ist, das erste Quartil vom dritten Quartil zu subtrahieren. Der resultierende Unterschied zeigt uns, wie verteilt die mittlere Hälfte unserer Daten ist.

Ausreißer ermitteln

Durch Multiplizieren des Interquartilbereichs (IQR) mit 1,5 können wir feststellen, ob ein bestimmter Wert ein Ausreißer ist. Wenn wir 1,5 x IQR vom ersten Quartil abziehen, werden alle Datenwerte, die unter dieser Zahl liegen, als Ausreißer betrachtet. In ähnlicher Weise werden alle Datenwerte, die größer als diese Zahl sind, als Ausreißer betrachtet, wenn wir 1,5 x IQR zum dritten Quartil addieren.

Starke Ausreißer

Einige Ausreißer weisen eine extreme Abweichung vom Rest eines Datensatzes auf. In diesen Fällen können wir die obigen Schritte ausführen, indem wir nur die Zahl ändern, mit der wir den IQR multiplizieren, und einen bestimmten Ausreißertyp definieren. Wenn wir 3,0 x IQR vom ersten Quartil abziehen, wird jeder Punkt, der unter dieser Zahl liegt, als starker Ausreißer bezeichnet. Auf die gleiche Weise können wir durch Addition von 3,0 x IQR zum dritten Quartil starke Ausreißer definieren, indem wir Punkte betrachten, die größer als diese Zahl sind.

Schwache Ausreißer

Neben starken Ausreißern gibt es eine weitere Kategorie für Ausreißer. Wenn ein Datenwert ein Ausreißer ist, aber kein starker Ausreißer, dann sagen wir, dass der Wert ein schwacher Ausreißer ist. Wir werden diese Konzepte anhand einiger Beispiele untersuchen.

Beispiel 1

Angenommen, wir haben den Datensatz 1, 2, 2, 3, 3, 4, 5, 5, 9. Die Nummer 9 scheint sicherlich ein Ausreißer zu sein. Es ist viel größer als jeder andere Wert aus dem Rest des Satzes. Um objektiv festzustellen, ob 9 ein Ausreißer ist, verwenden wir die obigen Methoden. Das erste Quartil ist 2 und das dritte Quartil ist 5, was bedeutet, dass der Interquartilbereich 3 ist. Wir multiplizieren den Interquartilbereich mit 1,5, erhalten 4,5 und addieren diese Zahl zum dritten Quartil. Das Ergebnis 9,5 ist größer als alle unsere Datenwerte. Daher gibt es keine Ausreißer.

Beispiel 2

Nun betrachten wir den gleichen Datensatz wie zuvor, mit der Ausnahme, dass der größte Wert 10 statt 9 ist: 1, 2, 2, 3, 3, 4, 5, 5, 10. Das erste Quartil, das dritte Quartil und der Interquartilbereich sind identisch mit Beispiel 1. Wenn wir zum dritten Quartil 1,5 x IQR = 4,5 addieren, beträgt die Summe 9,5. Da 10 größer als 9,5 ist, wird es als Ausreißer betrachtet.

Ist 10 ein starker oder schwacher Ausreißer? Dazu müssen wir uns 3 x IQR = 9 ansehen. Wenn wir 9 zum dritten Quartil addieren, erhalten wir eine Summe von 14. Da 10 nicht größer als 14 ist, handelt es sich nicht um einen starken Ausreißer. Wir schließen daraus, dass 10 ein schwacher Ausreißer ist.

Gründe für die Identifizierung von Ausreißern

Wir müssen immer nach Ausreißern Ausschau halten. Manchmal sind sie auf einen Fehler zurückzuführen. Andere Ausreißer weisen auf ein bisher unbekanntes Phänomen hin. Ein weiterer Grund, warum wir sorgfältig nach Ausreißern suchen müssen, sind die deskriptiven Statistiken, die für Ausreißer sensibel sind. Der Mittelwert, die Standardabweichung und der Korrelationskoeffizient für gepaarte Daten sind nur einige dieser Arten von Statistiken.