Beispiel für ein Konfidenzintervall für eine Populationsabweichung

Die Populationsvarianz gibt einen Hinweis darauf, wie ein Datensatz verteilt werden soll. Leider ist es in der Regel nicht möglich, genau zu wissen, um welchen Populationsparameter es sich handelt. Um unseren Wissensmangel zu kompensieren, verwenden wir ein Thema aus der Inferenzstatistik, die so genannten Konfidenzintervalle. Wir werden ein Beispiel sehen, wie ein Konfidenzintervall für eine Populationsvarianz berechnet wird.

Konfidenzintervallformel

 Die Formel für das (1 - α) -Konfidenzintervall über die Populationsvarianz. Wird durch die folgende Folge von Ungleichungen gegeben:

[(n - 1)s2] / B < σ2 < [ (n - 1)s2] / EIN.

Hier n ist die Stichprobengröße, s2 ist die Stichprobenvarianz. Die Nummer EIN ist der Punkt der Chi-Quadrat-Verteilung mit n -1 Freiheitsgrade, bei denen genau α / 2 der Fläche unter der Kurve links von liegt EIN. In ähnlicher Weise die Nummer B ist der Punkt der gleichen Chi-Quadrat-Verteilung mit genau α / 2 der Fläche unter der Kurve rechts von B.

Vorbereitungen

Wir beginnen mit einem Datensatz mit 10 Werten. Dieser Satz von Datenwerten wurde durch eine einfache Zufallsstichprobe erhalten:

97, 75, 124, 106, 120, 131, 94, 97, 96, 102

Eine explorative Datenanalyse wäre erforderlich, um zu zeigen, dass es keine Ausreißer gibt. Durch die Erstellung eines Stamm- und Blattplots sehen wir, dass diese Daten wahrscheinlich von einer Verteilung stammen, die ungefähr normal verteilt ist. Dies bedeutet, dass wir mit der Ermittlung eines 95% -Konfidenzintervalls für die Populationsvarianz fortfahren können.

Stichprobenabweichung

Wir müssen die Populationsvarianz mit der Stichprobenvarianz abschätzen, die mit bezeichnet wird s2. Wir beginnen also mit der Berechnung dieser Statistik. Im Wesentlichen berechnen wir die Summe der quadratischen Abweichungen vom Mittelwert. Aber anstatt diese Summe durch zu teilen n wir teilen es durch n - 1.

Wir stellen fest, dass der Mittelwert der Stichprobe 104,2 beträgt. Damit haben wir die Summe der quadrierten Abweichungen vom Mittelwert gegeben durch:

(97 - 104,2)2 + (75 - 104,3)2 +… + (96 - 104,2)2 + (102 - 104,2)2 = 2495,6

Wir dividieren diese Summe durch 10 - 1 = 9, um eine Stichprobenvarianz von 277 zu erhalten.

Chi-Quadrat-Verteilung

Wir wenden uns nun unserer Chi-Quadrat-Verteilung zu. Da wir 10 Datenwerte haben, haben wir 9 Freiheitsgrade. Da wir die mittleren 95% unserer Distribution wollen, brauchen wir 2,5% in jedem der beiden Schwänze. Wir konsultieren eine Chi-Quadrat-Tabelle oder Software und stellen fest, dass die Tabellenwerte von 2.7004 und 19.023 95% der Distributionsfläche einschließen. Diese Zahlen sind EIN und B, beziehungsweise.

Wir haben jetzt alles, was wir brauchen, und wir sind bereit, unser Konfidenzintervall zusammenzustellen. Die Formel für den linken Endpunkt lautet [(n - 1)s2] / B. Dies bedeutet, dass unser linker Endpunkt ist:

(9 × 277) / 19,023 = 133

Der richtige Endpunkt wird durch Ersetzen gefunden B mit EIN:

(9 × 277) / 2,7004 = 923

Und so sind wir zu 95% zuversichtlich, dass die Populationsvarianz zwischen 133 und 923 liegt.

Bevölkerungsstandardabweichung

Da die Standardabweichung die Quadratwurzel der Varianz ist, könnte diese Methode natürlich verwendet werden, um ein Konfidenzintervall für die Populationsstandardabweichung zu konstruieren. Alles, was wir tun müssten, ist die Quadratwurzel der Endpunkte zu ziehen. Das Ergebnis wäre ein Konfidenzintervall von 95% für die Standardabweichung.