Bereichsregel für Standardabweichung

Die Standardabweichung und der Bereich sind beide Maße für die Verbreitung eines Datensatzes. Jede Zahl sagt uns auf ihre Weise, wie weit die Daten voneinander entfernt sind, da beide ein Maß für die Variation sind. Obwohl es keine explizite Beziehung zwischen dem Bereich und der Standardabweichung gibt, gibt es eine Faustregel, die nützlich sein kann, um diese beiden Statistiken in Beziehung zu setzen. Diese Beziehung wird manchmal als Bereichsregel für die Standardabweichung bezeichnet.

Die Bereichsregel besagt, dass die Standardabweichung einer Stichprobe ungefähr einem Viertel des Datenbereichs entspricht. Mit anderen Worten s = (Maximum - Minimum) / 4. Dies ist eine sehr einfache Formel, die nur als grobe Schätzung der Standardabweichung verwendet werden sollte.

Ein Beispiel

Um ein Beispiel für die Funktionsweise der Bereichsregel zu sehen, sehen wir uns das folgende Beispiel an. Angenommen, wir beginnen mit den Datenwerten 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Diese Werte haben einen Mittelwert von 17 und eine Standardabweichung von etwa 4,1. Wenn wir stattdessen zuerst den Bereich unserer Daten als 25 - 12 = 13 berechnen und dann diese Zahl durch vier dividieren, erhalten wir unsere Schätzung der Standardabweichung als 13/4 = 3,25. Diese Zahl liegt relativ nahe an der wahren Standardabweichung und ist für eine grobe Schätzung gut.

Warum funktioniert es??

Möglicherweise scheint die Bereichsregel etwas seltsam zu sein. Warum funktioniert es? Scheint es nicht völlig willkürlich, den Bereich einfach durch vier zu teilen? Warum würden wir nicht durch eine andere Zahl teilen? Hinter den Kulissen gibt es tatsächlich eine mathematische Rechtfertigung.

Erinnern Sie sich an die Eigenschaften der Glockenkurve und die Wahrscheinlichkeiten einer Standardnormalverteilung. Ein Merkmal hat mit der Datenmenge zu tun, die innerhalb einer bestimmten Anzahl von Standardabweichungen liegt:

  • Ungefähr 68% der Daten liegen innerhalb einer Standardabweichung (höher oder niedriger) vom Mittelwert.
  • Ca. 95% der Daten liegen innerhalb von zwei Standardabweichungen (höher oder niedriger) vom Mittelwert.
  • Ca. 99% liegen innerhalb von drei Standardabweichungen (höher oder niedriger) vom Mittelwert.

Die Zahl, die wir verwenden, hat mit 95% zu tun. Wir können sagen, dass wir 95% unserer Daten von zwei Standardabweichungen unter dem Mittelwert bis zu zwei Standardabweichungen über dem Mittelwert haben. Somit würde sich fast die gesamte Normalverteilung über ein Liniensegment erstrecken, das insgesamt vier Standardabweichungen lang ist.

Nicht alle Daten sind normal verteilt und glockenkurvenförmig. Die meisten Daten sind jedoch so gutmütig, dass fast alle Daten erfasst werden, wenn zwei Standardabweichungen vom Durchschnitt abweichen. Wir schätzen und sagen, dass vier Standardabweichungen ungefähr der Größe des Bereichs entsprechen und der durch vier geteilte Bereich daher eine grobe Annäherung an die Standardabweichung darstellt.

Verwendet für die Bereichsregel

Die Bereichsregel ist in einer Reihe von Einstellungen hilfreich. Erstens ist es eine sehr schnelle Schätzung der Standardabweichung. Die Standardabweichung erfordert, dass wir zuerst den Mittelwert ermitteln, dann diesen Mittelwert von jedem Datenpunkt subtrahieren, die Differenzen quadrieren, diese addieren, durch eine Zahl weniger als die Anzahl der Datenpunkte dividieren und dann (endgültig) die Quadratwurzel ziehen. Andererseits erfordert die Bereichsregel nur eine Subtraktion und eine Division.

An anderen Stellen ist die Bereichsregel hilfreich, wenn unvollständige Informationen vorliegen. Formeln wie die zur Bestimmung der Stichprobengröße erfordern drei Informationen: die gewünschte Fehlerquote, das Vertrauensniveau und die Standardabweichung der untersuchten Grundgesamtheit. Oft ist es unmöglich zu wissen, wie hoch die Populationsstandardabweichung ist. Mit der Bereichsregel können wir diese Statistik abschätzen und dann wissen, wie groß die Stichprobe sein soll.