Konfidenzintervall für den Unterschied von zwei Bevölkerungsanteilen

Konfidenzintervalle sind ein Teil der Inferenzstatistik. Die Grundidee hinter diesem Thema besteht darin, den Wert eines unbekannten Populationsparameters mithilfe einer statistischen Stichprobe zu schätzen. Wir können nicht nur den Wert eines Parameters schätzen, sondern auch unsere Methoden anpassen, um die Differenz zwischen zwei verwandten Parametern zu schätzen. Zum Beispiel möchten wir vielleicht den Unterschied zwischen dem Prozentsatz der stimmberechtigten Männer in den USA, die eine bestimmte Rechtsvorschrift unterstützen, und der stimmberechtigten Frauen herausfinden.

Wir werden sehen, wie diese Art der Berechnung durchgeführt wird, indem ein Konfidenzintervall für die Differenz von zwei Populationsanteilen konstruiert wird. In diesem Prozess werden wir einen Teil der Theorie hinter dieser Berechnung untersuchen. Wir werden einige Ähnlichkeiten darin sehen, wie wir ein Konfidenzintervall für einen einzelnen Bevölkerungsanteil sowie ein Konfidenzintervall für die Differenz zweier Populationsmittelwerte konstruieren.

Allgemeines

Bevor wir uns die spezifische Formel ansehen, die wir verwenden werden, betrachten wir den allgemeinen Rahmen, in den diese Art von Konfidenzintervall passt. Die Form des Konfidenzintervalltyps, den wir betrachten, wird durch die folgende Formel angegeben:

Schätzung +/- Fehlergrenze

Viele Konfidenzintervalle sind von diesem Typ. Es gibt zwei Zahlen, die wir berechnen müssen. Der erste dieser Werte ist die Schätzung für den Parameter. Der zweite Wert ist die Fehlerquote. Diese Fehlerquote erklärt die Tatsache, dass wir eine Schätzung haben. Das Konfidenzintervall liefert uns einen Bereich möglicher Werte für unseren unbekannten Parameter.

Bedingungen

Wir sollten sicherstellen, dass alle Bedingungen erfüllt sind, bevor wir eine Berechnung durchführen. Um ein Konfidenzintervall für die Differenz von zwei Bevölkerungsanteilen zu finden, müssen wir sicherstellen, dass Folgendes zutrifft:

  • Wir haben zwei einfache Zufallsstichproben aus großen Populationen. Hier bedeutet "groß", dass die Population mindestens 20-mal größer als die Stichprobengröße ist. Die Stichprobengrößen werden mit bezeichnet n1 und n2.
  • Unsere Personen wurden unabhängig voneinander ausgewählt.
  • Es gibt mindestens zehn Erfolge und zehn Misserfolge in jeder unserer Stichproben.

Wenn das letzte Element in der Liste nicht erfüllt ist, kann dies möglicherweise umgangen werden. Wir können die Plus-Vier-Konfidenzintervall-Konstruktion modifizieren und robuste Ergebnisse erzielen. Im weiteren Verlauf gehen wir davon aus, dass alle oben genannten Bedingungen erfüllt sind.

Proben und Bevölkerungsanteile

Jetzt sind wir bereit, unser Konfidenzintervall zu konstruieren. Wir beginnen mit der Schätzung der Differenz zwischen unseren Bevölkerungsanteilen. Beide Bevölkerungsanteile werden anhand eines Stichprobenanteils geschätzt. Bei diesen Stichprobenanteilen handelt es sich um Statistiken, die ermittelt werden, indem die Anzahl der Erfolge in jeder Stichprobe und anschließend die jeweilige Stichprobengröße dividiert werden.

Der erste Bevölkerungsanteil wird mit bezeichnet p1. Ist die Anzahl der Erfolge in unserer Stichprobe aus dieser Grundgesamtheit k1, dann haben wir einen beispielanteil von k1 / n1.

Wir bezeichnen diese Statistik mit p̂1. Wir lesen dieses Symbol als "p1-hat ", weil es wie das Symbol p aussieht1 mit einem Hut an der Spitze.

Auf ähnliche Weise können wir einen Stichprobenanteil aus unserer zweiten Population berechnen. Der Parameter aus dieser Grundgesamtheit ist p2. Ist die Anzahl der Erfolge in unserer Stichprobe aus dieser Grundgesamtheit k2, und unser Stichprobenanteil ist p̂2 = k2 / n2.

Diese beiden Statistiken bilden den ersten Teil unseres Konfidenzintervalls. Die Schätzung von p1 ist p̂1. Die Schätzung von p2 ist p̂2. Also die Schätzung für den Unterschied p1 - p2 ist p̂1 - p̂2.

Stichprobenverteilung der Differenz der Stichprobenanteile

Als nächstes müssen wir die Formel für die Fehlergrenze erhalten. Dazu betrachten wir zunächst die Stichprobenverteilung von p̂. Dies ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p1 und n1 Versuche. Der Mittelwert dieser Verteilung ist der Anteil p1. Die Standardabweichung dieser Art von Zufallsvariablen hat die Varianz von p(1 - p) /n1.

Die Stichprobenverteilung von p̂2 ist ähnlich der von p̂. Ändern Sie einfach alle Indizes von 1 auf 2 und wir haben eine Binomialverteilung mit dem Mittelwert von p2 und Varianz von p2 (1 - p2 ) /n2.

Wir brauchen nun einige Ergebnisse aus der mathematischen Statistik, um die Stichprobenverteilung von p̂ zu bestimmen1 - p̂2. Der Mittelwert dieser Verteilung ist p1 - p2. Aufgrund der Tatsache, dass sich die Varianzen addieren, sehen wir, dass die Varianz der Stichprobenverteilung ist p(1 - p) /n1 + p2 (1 - p2 ) /n2. Die Standardabweichung der Verteilung ist die Quadratwurzel dieser Formel.

Wir müssen einige Anpassungen vornehmen. Die erste ist die Formel für die Standardabweichung von p̂1 - p̂2 verwendet die unbekannten Parameter von p1 und p2. Wenn wir diese Werte wirklich kennen würden, wäre das natürlich überhaupt kein interessantes statistisches Problem. Wir müssten den Unterschied zwischen nicht schätzen p1 und p2…  Stattdessen könnten wir einfach die genaue Differenz berechnen.

Dieses Problem kann durch Berechnen eines Standardfehlers anstelle einer Standardabweichung behoben werden. Wir müssen nur die Bevölkerungsanteile durch Stichprobenanteile ersetzen. Standardfehler werden aus Statistiken anstelle von Parametern berechnet. Ein Standardfehler ist nützlich, weil er eine Standardabweichung effektiv schätzt. Für uns bedeutet dies, dass wir den Wert der Parameter nicht mehr kennen müssen p1 und p2.Da diese Stichprobenverhältnisse bekannt sind, wird der Standardfehler durch die Quadratwurzel des folgenden Ausdrucks angegeben:

1 (1 - p̂1 ) /n1 + p̂2 (1 - p̂2 ) /n2.

Der zweite Punkt, den wir ansprechen müssen, ist die besondere Form unserer Stichprobenverteilung. Es stellt sich heraus, dass wir eine Normalverteilung verwenden können, um die Stichprobenverteilung von p̂ anzunähern- p̂2. Der Grund dafür ist etwas technisch, wird aber im nächsten Absatz erläutert. 

Beide p̂1 und Phaben eine Stichprobenverteilung, die binomial ist. Jede dieser Binomialverteilungen kann durch eine Normalverteilung ziemlich gut angenähert werden. Also p̂- p̂2 ist eine Zufallsvariable. Es wird als Linearkombination zweier Zufallsvariablen gebildet. Jedes von diesen wird durch eine Normalverteilung angenähert. Daher die Stichprobenverteilung von p̂- p̂2 ist auch normalverteilt.

Konfidenzintervallformel

Wir haben jetzt alles, was wir brauchen, um unser Konfidenzintervall zusammenzustellen. Die Schätzung ist (p̂1 - p̂2) und die Fehlerquote ist z * [ 1 (1 - p̂1 ) /n1 + p̂2 (1 - p̂2 ) /n2.]0,5. Der Wert, für den wir eingeben z * wird durch das Maß an Vertrauen diktiert C.  Häufig verwendete Werte für z * sind 1,645 für 90% Vertrauen und 1,96 für 95% Vertrauen. Diese Werte für z * bezeichnen den Teil der Standardnormalverteilung, wo genau C Prozent der Verteilung liegt zwischen -z * und z *. 

Die folgende Formel gibt uns ein Konfidenzintervall für die Differenz von zwei Populationsanteilen:

(p̂1 - p̂2) + /- z * [ 1 (1 - p̂1 ) /n1 + p̂2 (1 - p̂2 ) /n2.]0,5