So erstellen Sie ein Konfidenzintervall für einen Bevölkerungsanteil

Konfidenzintervalle können verwendet werden, um mehrere Populationsparameter abzuschätzen. Ein Parametertyp, der mithilfe der Inferenzstatistik geschätzt werden kann, ist der Bevölkerungsanteil. Zum Beispiel möchten wir vielleicht wissen, wie viel Prozent der US-Bevölkerung eine bestimmte Rechtsvorschrift unterstützt. Für diese Art von Frage müssen wir ein Konfidenzintervall finden.

In diesem Artikel erfahren Sie, wie Sie ein Konfidenzintervall für einen Bevölkerungsanteil konstruieren und einige der dahinter stehenden Theorien untersuchen.

Gesamtrahmen

Wir beginnen mit einem Blick auf das Gesamtbild, bevor wir auf die Einzelheiten eingehen. Der Typ des Konfidenzintervalls, den wir betrachten werden, hat die folgende Form:

Schätzung +/- Fehlergrenze

Dies bedeutet, dass wir zwei Zahlen bestimmen müssen. Diese Werte sind eine Schätzung für den gewünschten Parameter zusammen mit der Fehlerspanne.

Bedingungen

Bevor Sie einen statistischen Test oder ein statistisches Verfahren durchführen, müssen Sie sicherstellen, dass alle Bedingungen erfüllt sind. Für ein Konfidenzintervall für einen Bevölkerungsanteil müssen wir sicherstellen, dass Folgendes zutrifft:

  • Wir haben eine einfache Zufallsstichprobe n von einer großen Bevölkerung
  • Unsere Personen wurden unabhängig voneinander ausgewählt.
  • Es gibt mindestens 15 Erfolge und 15 Misserfolge in unserer Stichprobe.

Wenn der letzte Punkt nicht erfüllt ist, kann es möglich sein, unsere Stichprobe leicht anzupassen und ein Vertrauensintervall von plus vier zu verwenden. Im Folgenden gehen wir davon aus, dass alle oben genannten Bedingungen erfüllt sind.

Stichproben- und Bevölkerungsanteile

Wir beginnen mit der Schätzung unseres Bevölkerungsanteils. So wie wir einen Stichprobenmittelwert verwenden, um einen Bevölkerungsmittelwert zu schätzen, verwenden wir einen Stichprobenanteil, um einen Bevölkerungsanteil zu schätzen. Der Bevölkerungsanteil ist ein unbekannter Parameter. Der Stichprobenanteil ist eine Statistik. Diese Statistik wird ermittelt, indem die Anzahl der Erfolge in unserer Stichprobe gezählt und dann durch die Gesamtzahl der Personen in der Stichprobe dividiert wird.

Der Bevölkerungsanteil wird mit bezeichnet p und ist selbsterklärend. Die Notation für den Stichprobenanteil ist etwas komplizierter. Wir bezeichnen ein Stichprobenverhältnis als p̂ und lesen dieses Symbol als "p-hat", weil es wie der Buchstabe aussieht p mit einem Hut an der Spitze.

Dies wird der erste Teil unseres Vertrauensintervalls. Die Schätzung von p ist p̂.

Stichprobenverteilung des Stichprobenanteils

Um die Formel für die Fehlertoleranz zu bestimmen, müssen wir über die Stichprobenverteilung von p̂ nachdenken. Wir müssen den Mittelwert, die Standardabweichung und die bestimmte Verteilung kennen, mit der wir arbeiten.

Die Stichprobenverteilung von p̂ ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p und n Versuche. Diese Art von Zufallsvariablen hat einen Mittelwert von p und Standardabweichung von (p(1 - p) /n)0,5. Damit sind zwei Probleme verbunden.

Das erste Problem ist, dass es sehr schwierig sein kann, mit einer Binomialverteilung zu arbeiten. Das Vorhandensein von Fakultäten kann zu sehr großen Zahlen führen. Hier helfen uns die Bedingungen. Solange unsere Bedingungen erfüllt sind, können wir die Binomialverteilung mit der Standardnormalverteilung schätzen.

Das zweite Problem ist, dass die Standardabweichung von p̂ verwendet wird p in seiner Definition. Der unbekannte Populationsparameter ist unter Verwendung des gleichen Parameters als Fehlergrenze zu schätzen. Diese Zirkelschlussfolgerung ist ein Problem, das behoben werden muss.

Der Weg aus diesem Rätsel besteht darin, die Standardabweichung durch ihren Standardfehler zu ersetzen. Standardfehler basieren auf Statistiken, nicht auf Parametern. Ein Standardfehler wird verwendet, um eine Standardabweichung abzuschätzen. Was diese Strategie lohnt, ist, dass wir den Wert des Parameters nicht mehr kennen müssen p.

Formel

Um den Standardfehler zu verwenden, ersetzen wir den unbekannten Parameter p mit der Statistik p̂. Das Ergebnis ist die folgende Formel für ein Konfidenzintervall für einen Bevölkerungsanteil:

p̂ + /- z * (p̂ (1 - p̂) /n)0,5.

Hier der Wert von z * wird durch unser Vertrauen bestimmt C. Für die Standardnormalverteilung genau C Prozent der Standardnormalverteilung liegen zwischen -z * und z *. Gemeinsame Werte für z * Einschließlich 1,645 für 90% iges Vertrauen und 1,96 für 95% iges Vertrauen.

Beispiel

Schauen wir uns an einem Beispiel an, wie diese Methode funktioniert. Angenommen, wir möchten mit 95% Selbstvertrauen den Prozentsatz der Wähler in einem Landkreis kennen, der sich als demokratisch ausweist. Wir führen eine einfache Zufallsstichprobe von 100 Personen in dieser Grafschaft durch und stellen fest, dass 64 von ihnen sich als Demokraten identifizieren.

Wir sehen, dass alle Bedingungen erfüllt sind. Die Schätzung unseres Bevölkerungsanteils beträgt 64/100 = 0,64. Dies ist der Wert des Stichprobenanteils p̂ und das Zentrum unseres Konfidenzintervalls.

Die Fehlerspanne besteht aus zwei Teilen. Das erste ist z*. Wie gesagt, für 95% Vertrauen ist der Wert von z* = 1,96.

Der andere Teil der Fehlertoleranz ergibt sich aus der Formel (p̂ (1 - p̂) /n)0,5. Wir setzen p̂ = 0,64 und berechnen = den Standardfehler zu (0,64 (0,36) / 100)0,5 = 0,048.

Wir multiplizieren diese beiden Zahlen und erhalten eine Fehlerquote von 0,09408. Das Endergebnis ist:

0,64 +/- 0,09408,

oder wir können dies als 54,592% auf 73,408% umschreiben. Wir sind daher zu 95% zuversichtlich, dass der tatsächliche Bevölkerungsanteil der Demokraten irgendwo im Bereich dieser Prozentsätze liegt. Dies bedeutet, dass unsere Technik und Formel auf lange Sicht den Bevölkerungsanteil von 95% der Zeit erfassen wird.

Verwandte Ideen

Es gibt eine Reihe von Ideen und Themen, die mit dieser Art von Konfidenzintervall verbunden sind. Beispielsweise könnten wir einen Hypothesentest zum Wert des Bevölkerungsanteils durchführen. Wir könnten auch zwei Proportionen aus zwei verschiedenen Populationen vergleichen.