Die Inferenzstatistik hat ihren Namen von dem, was in diesem Statistikzweig passiert. Anstatt nur einen Datensatz zu beschreiben, versucht die Inferenzstatistik, auf der Grundlage einer statistischen Stichprobe auf eine Population zu schließen. Ein spezifisches Ziel in der Inferenzstatistik ist die Bestimmung des Wertes eines unbekannten Populationsparameters. Der Wertebereich, den wir zum Schätzen dieses Parameters verwenden, wird als Konfidenzintervall bezeichnet.
Ein Konfidenzintervall besteht aus zwei Teilen. Der erste Teil ist die Schätzung des Populationsparameters. Diese Schätzung erhalten wir anhand einer einfachen Zufallsstichprobe. Aus diesem Beispiel berechnen wir die Statistik, die dem Parameter entspricht, den wir schätzen möchten. Wenn wir zum Beispiel an der Durchschnittsgröße aller Schüler der ersten Klasse in den USA interessiert wären, würden wir eine einfache Zufallsstichprobe von Erstklässlern in den USA verwenden, alle von ihnen messen und dann die Durchschnittsgröße unserer Stichprobe berechnen.
Der zweite Teil eines Konfidenzintervalls ist die Fehlerquote. Dies ist notwendig, da unsere Schätzung allein vom wahren Wert des Populationsparameters abweichen kann. Um andere mögliche Werte des Parameters zu berücksichtigen, müssen wir einen Bereich von Zahlen erzeugen. Die Fehlerquote tut dies, und jedes Konfidenzintervall hat die folgende Form:
Schätzung ± Fehlergrenze
Die Schätzung befindet sich in der Mitte des Intervalls. Anschließend subtrahieren und addieren wir die Fehlertoleranz von dieser Schätzung, um einen Wertebereich für den Parameter zu erhalten.
Jedem Konfidenzintervall ist ein Konfidenzniveau zugeordnet. Dies ist eine Wahrscheinlichkeit oder ein Prozentsatz, der angibt, wie viel Sicherheit wir unserem Konfidenzintervall zuordnen sollten. Wenn alle anderen Aspekte einer Situation identisch sind, ist das Konfidenzintervall umso breiter, je höher das Konfidenzniveau ist.
Dieses Maß an Vertrauen kann zu Verwirrung führen. Es ist keine Aussage über das Probenahmeverfahren oder die Population. Stattdessen gibt es einen Hinweis auf den Erfolg des Konstruktionsprozesses eines Konfidenzintervalls. Zum Beispiel werden Konfidenzintervalle mit einer Konfidenz von 80 Prozent auf lange Sicht den wahren Populationsparameter von einem von fünf Fällen verfehlen.
Jede Zahl von null bis eins könnte theoretisch für ein Konfidenzniveau verwendet werden. In der Praxis sind 90 Prozent, 95 Prozent und 99 Prozent alle gängigen Vertrauensstufen.
Die Fehlerquote eines Konfidenzniveaus wird durch einige Faktoren bestimmt. Wir können dies sehen, indem wir die Formel für die Fehlergrenze untersuchen. Eine Fehlerquote hat die Form:
Fehlerquote = (Statistik für Konfidenzniveau) * (Standardabweichung / Fehler)
Die Statistik für das Konfidenzniveau hängt davon ab, welche Wahrscheinlichkeitsverteilung verwendet wird und welches Konfidenzniveau wir ausgewählt haben. Zum Beispiel, wenn Cist unser Selbstvertrauen und wir arbeiten dann mit einer Normalverteilung C ist die Fläche unter der Kurve zwischen -z* zu z*. Diese Nummer z* ist die Zahl in unserer Fehlergrenze.
Der andere Begriff, der für unsere Fehlerquote erforderlich ist, ist die Standardabweichung oder der Standardfehler. Die Standardabweichung der Verteilung, mit der wir arbeiten, wird hier bevorzugt. Typischerweise sind jedoch Parameter aus der Grundgesamtheit unbekannt. Diese Nummer ist normalerweise nicht verfügbar, wenn Konfidenzintervalle in der Praxis gebildet werden.
Um mit dieser Unsicherheit beim Erkennen der Standardabweichung umzugehen, verwenden wir stattdessen den Standardfehler. Der Standardfehler, der einer Standardabweichung entspricht, ist eine Schätzung dieser Standardabweichung. Was den Standardfehler so stark macht, ist, dass er aus der einfachen Zufallsstichprobe berechnet wird, die zur Berechnung unserer Schätzung verwendet wird. Es sind keine zusätzlichen Informationen erforderlich, da die Stichprobe die gesamte Schätzung für uns übernimmt.
Es gibt verschiedene Situationen, die Vertrauensintervalle erfordern. Diese Konfidenzintervalle werden verwendet, um eine Anzahl verschiedener Parameter abzuschätzen. Obwohl diese Aspekte unterschiedlich sind, werden alle diese Konfidenzintervalle durch dasselbe Gesamtformat vereint. Einige übliche Konfidenzintervalle sind die für einen Bevölkerungsmittelwert, eine Bevölkerungsvarianz, einen Bevölkerungsanteil, die Differenz zweier Bevölkerungsmittelwerte und die Differenz zweier Bevölkerungsanteile.