Beispiel für Bootstrapping

Bootstrapping ist eine leistungsstarke statistische Technik. Dies ist besonders nützlich, wenn die Stichprobengröße, mit der wir arbeiten, klein ist. Unter normalen Umständen können Stichprobengrößen von weniger als 40 nicht mit einer Normalverteilung oder einer t-Verteilung behandelt werden. Bootstrap-Techniken eignen sich sehr gut für Samples mit weniger als 40 Elementen. Der Grund dafür ist, dass beim Bootstrapping ein Resampling durchgeführt wird. Diese Art von Techniken setzen nichts über die Verbreitung unserer Daten voraus.

Bootstrapping ist populärer geworden, da Computerressourcen leichter verfügbar sind. Dies liegt daran, dass ein Computer verwendet werden muss, damit das Bootstrapping praktisch ist. Wir werden sehen, wie dies im folgenden Beispiel für Bootstrapping funktioniert.

Beispiel

Wir beginnen mit einer statistischen Stichprobe aus einer Population, über die wir nichts wissen. Unser Ziel wird ein Konfidenzintervall von 90% zum Mittelwert der Stichprobe sein. Obwohl andere statistische Methoden zur Bestimmung der Konfidenzintervalle davon ausgehen, dass wir den Mittelwert oder die Standardabweichung unserer Grundgesamtheit kennen, erfordert das Bootstrapping nichts anderes als die Stichprobe.

Für die Zwecke unseres Beispiels nehmen wir an, dass die Stichprobe 1, 2, 4, 4, 10 ist.

Bootstrap-Beispiel

Wir nehmen nun ein Resample mit Ersatz aus unserem Sample vor, um sogenannte Bootstrap-Samples zu bilden. Jedes Bootstrap-Beispiel hat eine Größe von fünf, genau wie unser Originalbeispiel. Da wir jeden Wert zufällig auswählen und dann ersetzen, können sich die Bootstrap-Beispiele vom ursprünglichen Beispiel und voneinander unterscheiden.

Bei Beispielen, denen wir in der realen Welt begegnen würden, würden wir dieses Resampling hunderte, wenn nicht tausende Male durchführen. Im Folgenden sehen wir ein Beispiel von 20 Bootstrap-Beispielen:

  • 2, 1, 10, 4, 2
  • 4, 10, 10, 2, 4
  • 1, 4, 1, 4, 4
  • 4, 1, 1, 4, 10
  • 4, 4, 1, 4, 2
  • 4, 10, 10, 10, 4
  • 2, 4, 4, 2, 1
  • 2, 4, 1, 10, 4
  • 1, 10, 2, 10, 10
  • 4, 1, 10, 1, 10
  • 4, 4, 4, 4, 1
  • 1, 2, 4, 4, 2
  • 4, 4, 10, 10, 2
  • 4, 2, 1, 4, 4
  • 4, 4, 4, 4, 4
  • 4, 2, 4, 1, 1
  • 4, 4, 4, 2, 4
  • 10, 4, 1, 4, 4
  • 4, 2, 1, 1, 2
  • 10, 2, 2, 1, 1

Bedeuten

Da wir Bootstrapping verwenden, um ein Konfidenzintervall für den Populationsmittelwert zu berechnen, berechnen wir jetzt die Mittelwerte für jedes unserer Bootstrap-Beispiele. Diese Mittel sind in aufsteigender Reihenfolge angeordnet: 2, 2,4, 2,6, 2,6, 2,8, 3, 3, 3,2, 3,4, 3,6, 3,8, 4, 4, 4,2, 4,6, 5,2, 6, 6,6, 7,6.

Konfidenzintervall

Wir erhalten nun aus unserer Liste der Bootstrap-Stichproben ein Konfidenzintervall. Da wir ein Konfidenzintervall von 90% wünschen, verwenden wir das 95. und 5. Perzentil als Endpunkte der Intervalle. Der Grund dafür ist, dass wir 100% - 90% = 10% in zwei Hälften teilen, so dass wir die mittleren 90% aller Bootstrap-Beispielmittel haben.

Für unser Beispiel oben haben wir ein Konfidenzintervall von 2,4 bis 6,6.