Oft möchten Forscher die Antworten auf Fragen wissen, die einen großen Umfang haben. Beispielsweise:
Diese Art von Fragen ist riesig in dem Sinne, dass wir Millionen von Menschen im Auge behalten müssen.
Die Statistik vereinfacht diese Probleme durch die Verwendung einer Technik namens Stichproben. Durch die Durchführung einer statistischen Stichprobe kann unsere Arbeitsbelastung erheblich reduziert werden. Anstatt das Verhalten von Milliarden oder Millionen zu verfolgen, müssen wir nur das von Tausenden oder Hunderten untersuchen. Wie wir sehen werden, hat diese Vereinfachung ihren Preis.
Die Bevölkerung einer statistischen Studie ist das, worüber wir etwas herausfinden wollen. Es besteht aus allen Personen, die untersucht werden. Eine Bevölkerung kann wirklich alles sein. Kalifornier, Karibiker, Computer, Autos oder Landkreise könnten je nach statistischer Fragestellung als Bevölkerungsgruppen betrachtet werden. Die meisten untersuchten Populationen sind zwar groß, müssen es aber nicht sein.
Eine Strategie zur Erforschung der Bevölkerung ist die Durchführung einer Volkszählung. In einer Volkszählung untersuchen wir jedes einzelne Mitglied der Bevölkerung in unserer Studie. Ein Paradebeispiel hierfür ist die US-Volkszählung. Alle zehn Jahre sendet das Census Bureau einen Fragebogen an alle im Land. Diejenigen, die das Formular nicht zurückschicken, werden von Zensus-Mitarbeitern besucht
Volkszählungen sind mit Schwierigkeiten behaftet. Sie sind in der Regel zeit- und ressourcenintensiv. Darüber hinaus ist es schwierig zu garantieren, dass alle in der Bevölkerung erreicht wurden. Es ist noch schwieriger, mit anderen Bevölkerungsgruppen eine Volkszählung durchzuführen. Wenn wir die Gewohnheiten streunender Hunde im Bundesstaat New York untersuchen wollten, dann viel Glück alle dieser vorübergehenden Eckzähne.
Da es normalerweise entweder unmöglich oder unpraktisch ist, jedes Mitglied einer Population aufzuspüren, besteht die nächste verfügbare Option darin, die Population zu beproben. Eine Stichprobe ist eine beliebige Teilmenge einer Population, daher kann ihre Größe klein oder groß sein. Wir möchten, dass eine Stichprobe klein genug ist, um von unserer Rechenleistung verwaltet werden zu können, und dennoch groß genug, um statistisch signifikante Ergebnisse zu erzielen.
Wenn ein Wahlbüro versucht, die Zufriedenheit der Wähler mit dem Kongress zu bestimmen, und die Stichprobengröße eins ist, sind die Ergebnisse bedeutungslos (aber leicht zu erhalten). Auf der anderen Seite wird das Bitten von Millionen von Menschen zu viele Ressourcen verbrauchen. Um ein Gleichgewicht herzustellen, haben Umfragen dieser Art normalerweise Stichprobengrößen von etwa 1000.
Die richtige Stichprobengröße reicht jedoch nicht aus, um gute Ergebnisse zu erzielen. Wir wollen eine Stichprobe, die für die Bevölkerung repräsentativ ist. Angenommen, wir möchten herausfinden, wie viele Bücher ein Durchschnittsamerikaner jährlich liest. Wir bitten 2000 College-Studenten, den Überblick über das zu behalten, was sie im Laufe des Jahres gelesen haben, und uns dann nach Ablauf eines Jahres bei ihnen zu melden. Wir finden, dass die durchschnittliche Anzahl der gelesenen Bücher 12 ist, und schließen daraus, dass der durchschnittliche Amerikaner 12 Bücher pro Jahr liest.
Das Problem mit diesem Szenario ist mit dem Beispiel. Die Mehrheit der Studenten ist zwischen 18 und 25 Jahre alt und muss von ihren Lehrern Lehrbücher und Romane lesen. Dies ist eine schlechte Darstellung des durchschnittlichen Amerikaners. Eine gute Stichprobe würde Menschen unterschiedlichen Alters aus allen Lebensbereichen und aus verschiedenen Regionen des Landes umfassen. Um eine solche Stichprobe zu erhalten, müssten wir sie zufällig zusammenstellen, damit jeder Amerikaner die gleiche Wahrscheinlichkeit hat, in der Stichprobe zu sein.
Der Goldstandard statistischer Experimente ist die einfache Zufallsstichprobe. In einer solchen Stichprobe von Größe n Englisch: emagazine.credit-suisse.com/app/art ... = 157 & lang = en Individuen, jedes Mitglied der Bevölkerung hat die gleiche Wahrscheinlichkeit, für die Stichprobe ausgewählt zu werden, und jede Gruppe von Individuen n Einzelpersonen haben die gleiche Wahrscheinlichkeit, ausgewählt zu werden. Es gibt verschiedene Möglichkeiten, eine Population zu beproben. Einige der häufigsten sind:
Das Sprichwort lautet: „Gut begonnen ist zur Hälfte erledigt.“ Um sicherzustellen, dass unsere statistischen Studien und Experimente gute Ergebnisse liefern, müssen wir sie sorgfältig planen und beginnen. Es ist einfach, schlechte statistische Stichproben zu finden. Gute einfache Zufallsstichproben erfordern einige Arbeit, um zu erhalten. Wenn unsere Daten willkürlich und auf unbekümmerte Weise erfasst wurden, können wir mit statistischen Methoden keine sinnvollen Schlussfolgerungen ziehen, auch wenn unsere Analyse noch so aufwändig ist.