Robustheit in der Statistik

In der Statistik bezieht sich der Begriff "robust" oder "robust" auf die Stärke eines statistischen Modells, von Tests und Verfahren gemäß den spezifischen Bedingungen der statistischen Analyse, die von einer Studie angestrebt wird. Vorausgesetzt, dass diese Bedingungen einer Studie erfüllt sind, können die Modelle mithilfe mathematischer Beweise auf ihre Richtigkeit überprüft werden.

Viele Modelle basieren auf idealen Situationen, die bei der Arbeit mit realen Daten nicht vorhanden sind, und daher liefert das Modell möglicherweise auch dann korrekte Ergebnisse, wenn die Bedingungen nicht genau erfüllt sind.

Robuste Statistiken sind daher alle Statistiken, die eine gute Leistung erbringen, wenn Daten aus einem breiten Spektrum von Wahrscheinlichkeitsverteilungen stammen, die von Ausreißern weitgehend unberührt bleiben oder geringfügige Abweichungen von den Modellannahmen in einem bestimmten Datensatz aufweisen. Mit anderen Worten, eine robuste Statistik ist resistent gegen Fehler in den Ergebnissen.

Eine Möglichkeit, ein häufig verwendetes robustes statistisches Verfahren zu beobachten, ist die Suche nach t-Verfahren, bei denen mithilfe von Hypothesentests die genauesten statistischen Vorhersagen getroffen werden.

T-Prozeduren beachten

Als Beispiel für Robustheit betrachten wir t-Verfahren, die das Konfidenzintervall für einen Populationsmittelwert mit unbekannter Populationsstandardabweichung sowie Hypothesentests zum Populationsmittelwert umfassen.

Die Verwendung von t-Verfahren setzt Folgendes voraus:

  • Der Datensatz, mit dem wir arbeiten, ist eine einfache Zufallsstichprobe der Grundgesamtheit.
  • Die Population, aus der wir eine Stichprobe gezogen haben, ist normal verteilt.

In der Praxis mit Beispielen aus der Praxis haben Statistiker selten eine normal verteilte Bevölkerung, weshalb sich stattdessen die Frage stellt: „Wie robust sind unsere Bevölkerung? t-Verfahren? "

Im Allgemeinen ist die Bedingung, dass wir eine einfache Zufallsstichprobe haben, wichtiger als die Bedingung, dass wir eine Stichprobe aus einer normalverteilten Population gezogen haben; Der Grund dafür ist, dass der zentrale Grenzwertsatz eine annähernd normale Stichprobenverteilung sicherstellt. Je größer unsere Stichprobengröße ist, desto näher ist die Stichprobenverteilung des Stichprobenmittelwerts an der Normalität.

Wie T-Prozeduren als robuste Statistiken funktionieren

Also Robustheit für t-Verfahren hängt von der Stichprobengröße und der Verteilung unserer Stichprobe ab. Überlegungen hierzu umfassen:

  • Wenn die Stichprobengröße groß ist, was bedeutet, dass wir 40 oder mehr Beobachtungen haben, dann t-Prozeduren können auch mit Verteilungen verwendet werden, die schief sind.
  • Wenn die Stichprobengröße zwischen 15 und 40 liegt, können wir verwenden t-Verfahren für jede geformte Verteilung, es sei denn, es gibt Ausreißer oder einen hohen Grad an Schiefe.
  • Wenn die Stichprobengröße unter 15 liegt, können wir verwenden t- Prozeduren für Daten, die keine Ausreißer haben, einen einzelnen Peak und nahezu symmetrisch sind.

In den meisten Fällen wurde die Robustheit durch technische Arbeiten in der mathematischen Statistik festgestellt, und glücklicherweise müssen wir diese fortgeschrittenen mathematischen Berechnungen nicht unbedingt durchführen, um sie richtig zu nutzen. Wir müssen nur verstehen, welche allgemeinen Richtlinien für die Robustheit unserer spezifischen statistischen Methode gelten.

T-Prozeduren funktionieren als robuste Statistiken, da sie in der Regel eine gute Leistung für diese Modelle erbringen, indem sie die Größe der Stichprobe in die Grundlage für die Anwendung der Prozedur einbeziehen.