Bootstrapping ist eine statistische Technik, die unter die breitere Überschrift Resampling fällt. Diese Technik ist relativ einfach, wird jedoch so oft wiederholt, dass sie stark von Computerberechnungen abhängt. Bootstrapping bietet eine andere Methode als Konfidenzintervalle zum Schätzen eines Populationsparameters. Bootstrapping scheint sehr magisch zu wirken. Lesen Sie weiter, um zu sehen, wie es zu seinem interessanten Namen kommt.
Ein Ziel der Inferenzstatistik ist es, den Wert eines Parameters einer Population zu bestimmen. Es ist in der Regel zu teuer oder sogar unmöglich, dies direkt zu messen. Wir verwenden also statistische Stichproben. Wir nehmen eine Stichprobe einer Population, messen eine Statistik dieser Stichprobe und verwenden diese Statistik dann, um etwas über den entsprechenden Parameter der Population zu sagen.
In einer Schokoladenfabrik möchten wir beispielsweise sicherstellen, dass Schokoriegel ein bestimmtes Durchschnittsgewicht haben. Es ist nicht möglich, jeden produzierten Schokoriegel zu wiegen. Daher verwenden wir Stichprobenverfahren, um zufällig 100 Schokoriegel auszuwählen. Wir berechnen den Mittelwert dieser 100 Schokoriegel und sagen, dass der Mittelwert der Grundgesamtheit innerhalb eines Fehlerbereichs liegt, der sich aus dem Mittelwert unserer Stichprobe ergibt.
Angenommen, wir möchten ein paar Monate später genauer - oder weniger fehlerbehaftet - wissen, wie hoch das mittlere Schokoriegelgewicht an dem Tag war, an dem wir die Produktionslinie abgetastet haben. Wir können die heutigen Schokoriegel nicht verwenden, da zu viele Variablen in das Bild eingegangen sind (verschiedene Chargen von Milch, Zucker und Kakaobohnen, verschiedene atmosphärische Bedingungen, verschiedene Mitarbeiter in der Leitung usw.). Alles, was wir von dem Tag an haben, an dem wir neugierig sind, sind die 100 Gewichte. Ohne eine Zeitmaschine bis zu diesem Tag scheint die anfängliche Fehlerquote die beste zu sein, auf die wir hoffen können.
Glücklicherweise können wir die Bootstrapping-Technik verwenden. In dieser Situation werden die 100 bekannten Gewichte nach dem Zufallsprinzip ausgetauscht. Wir nennen dies dann ein Bootstrap-Beispiel. Da wir den Austausch zulassen, ist dieses Bootstrap-Beispiel höchstwahrscheinlich nicht mit unserem ursprünglichen Beispiel identisch. Einige Datenpunkte können dupliziert werden, und andere Datenpunkte von den anfänglichen 100 können in einem Bootstrap-Beispiel weggelassen werden. Mit Hilfe eines Computers können Tausende von Bootstrap-Beispielen in relativ kurzer Zeit erstellt werden.
Wie bereits erwähnt, müssen wir einen Computer verwenden, um die Bootstrap-Techniken wirklich nutzen zu können. Das folgende numerische Beispiel soll die Funktionsweise des Prozesses veranschaulichen. Beginnen wir mit den Beispielen 2, 4, 5, 6, 6, dann sind alle folgenden möglichen Bootstrap-Beispiele:
Bootstrap-Techniken sind im Bereich der Statistik relativ neu. Die erste Verwendung wurde 1979 in einer Veröffentlichung von Bradley Efron veröffentlicht. Da die Rechenleistung zugenommen hat und billiger wird, haben sich Bootstrap-Techniken weiter verbreitet.
Der Name "Bootstrapping" kommt von dem Satz "Um sich an den Bootstraps hochzuheben". Dies bezieht sich auf etwas, das absurd und unmöglich ist. Versuchen Sie so viel wie möglich, Sie können sich nicht in die Luft erheben, indem Sie an Lederstücken an Ihren Stiefeln ziehen.
Es gibt eine mathematische Theorie, die Bootstrapping-Techniken rechtfertigt. Die Verwendung von Bootstrapping fühlt sich jedoch so an, als würden Sie das Unmögliche tun. Obwohl es nicht so aussieht, als ob Sie die Schätzung einer Bevölkerungsstatistik verbessern könnten, indem Sie dieselbe Stichprobe immer wieder verwenden, kann Bootstrapping dies tatsächlich tun.