Der Unterschied zwischen deskriptiver und inferenzieller Statistik

Das Gebiet der Statistik ist in zwei Hauptbereiche unterteilt: beschreibende und inferentielle. Jedes dieser Segmente ist wichtig und bietet unterschiedliche Techniken, mit denen unterschiedliche Ziele erreicht werden können. Beschreibende Statistiken beschreiben, was in einer Grundgesamtheit oder einem Datensatz vor sich geht. Inferenzstatistiken hingegen ermöglichen es Wissenschaftlern, Ergebnisse aus einer Stichprobengruppe auf eine größere Population zu verallgemeinern. Die beiden Arten von Statistiken weisen einige wichtige Unterschiede auf.

Beschreibende Statistik

Beschreibende Statistik ist die Art von Statistik, die den meisten Menschen wahrscheinlich in den Sinn kommt, wenn sie das Wort "Statistik" hören. In diesem Zweig der Statistik geht es darum, zu beschreiben. Numerische Kennzahlen werden verwendet, um Merkmale eines Datensatzes zu ermitteln. Es gibt eine Reihe von Elementen, die in diesen Teil der Statistik gehören, wie z.

  • Der Durchschnitt oder das Maß der Mitte eines Datensatzes, bestehend aus dem Mittelwert, dem Median, dem Modus oder dem mittleren Bereich
  • Die Streuung eines Datensatzes, die mit dem Bereich oder der Standardabweichung gemessen werden kann
  • Allgemeine Beschreibungen von Daten wie die Fünf-Nummern-Zusammenfassung
  • Messungen wie Schiefe und Kurtosis
  • Die Untersuchung von Beziehungen und Korrelationen zwischen gepaarten Daten
  • Die Darstellung statistischer Ergebnisse in grafischer Form

Diese Maßnahmen sind wichtig und nützlich, da sie es Wissenschaftlern ermöglichen, Muster zwischen Daten zu erkennen und diese Daten somit zu verstehen. Beschreibende Statistiken können nur zur Beschreibung der Grundgesamtheit oder des untersuchten Datensatzes verwendet werden: Die Ergebnisse können nicht auf eine andere Gruppe oder Grundgesamtheit verallgemeinert werden.

Arten der beschreibenden Statistik

Es gibt zwei Arten von deskriptiven Statistiken, die Sozialwissenschaftler verwenden:

Messungen der zentralen Tendenz erfassen allgemeine Trends in den Daten und werden als Mittelwert, Median und Modus berechnet und ausgedrückt. Ein Mittelwert gibt den Wissenschaftlern den mathematischen Durchschnitt aller Daten an, z. B. das Durchschnittsalter bei der ersten Heirat. Der Median stellt die Mitte der Datenverteilung dar, wie das Alter, das in der Mitte des Altersbereichs liegt, in dem die Menschen zum ersten Mal heiraten. und der Modus könnte das häufigste Alter sein, in dem Menschen zum ersten Mal heiraten.

Verbreitungsmaße beschreiben, wie die Daten verteilt sind und in Beziehung zueinander stehen, einschließlich:

  • Der Bereich, der gesamte Wertebereich eines Datensatzes
  • Die Häufigkeitsverteilung, die definiert, wie oft ein bestimmter Wert in einem Datensatz vorkommt
  • Quartile, Untergruppen, die innerhalb eines Datensatzes gebildet werden, wenn alle Werte im gesamten Bereich in vier gleiche Teile geteilt werden
  • Mittlere absolute Abweichung, der Durchschnitt, um wie viel jeder Wert vom Mittelwert abweicht
  • Varianz, die zeigt, wie viel von einem Spread in den Daten vorhanden ist
  • Standardabweichung, die die Streuung der Daten relativ zum Mittelwert darstellt

Ausbreitungsmaße werden häufig visuell in Tabellen, Kreis- und Balkendiagrammen sowie Histogrammen dargestellt, um das Verständnis der Trends in den Daten zu erleichtern.

Inferenzstatistik

Inferenzstatistiken werden durch komplexe mathematische Berechnungen erstellt, die es Wissenschaftlern ermöglichen, Trends über eine größere Population auf der Grundlage einer Studie einer daraus entnommenen Stichprobe abzuleiten. Wissenschaftler verwenden Inferenzstatistiken, um die Beziehungen zwischen Variablen in einer Stichprobe zu untersuchen und dann Verallgemeinerungen oder Vorhersagen darüber zu treffen, wie sich diese Variablen auf eine größere Population beziehen.

Es ist normalerweise unmöglich, jedes Mitglied der Bevölkerung einzeln zu untersuchen. Daher wählen Wissenschaftler eine repräsentative Untergruppe der Bevölkerung aus, die als statistische Stichprobe bezeichnet wird, und aus dieser Analyse können sie etwas über die Bevölkerung aussagen, aus der die Stichprobe stammt. Es gibt zwei Hauptbereiche für die Inferenzstatistik:

  • Ein Konfidenzintervall gibt einen Wertebereich für einen unbekannten Parameter der Population an, indem eine statistische Stichprobe gemessen wird. Dies wird in Form eines Intervalls und des Vertrauensgrades ausgedrückt, mit dem der Parameter innerhalb des Intervalls liegt.
  • Signifikanztests oder Hypothesentests, bei denen Wissenschaftler durch Analyse einer statistischen Stichprobe einen Anspruch auf die Population erheben. In diesem Prozess gibt es einige Unsicherheiten. Dies kann in Form eines Signifikanzniveaus ausgedrückt werden.

Zu den Techniken, mit denen Sozialwissenschaftler die Beziehungen zwischen Variablen untersuchen und daraus inferentielle Statistiken erstellen, gehören lineare Regressionsanalysen, logistische Regressionsanalysen, ANOVA, Korrelationsanalysen, Modellierung von Strukturgleichungen und Überlebensanalysen. Bei der Durchführung von Untersuchungen mithilfe von Inferenzstatistiken führen Wissenschaftler einen Signifikanztest durch, um festzustellen, ob sie ihre Ergebnisse auf eine größere Population übertragen können. Häufige Signifikanztests sind der Chi-Quadrat- und der T-Test. Diese sagen den Wissenschaftlern, mit welcher Wahrscheinlichkeit die Ergebnisse ihrer Analyse der Stichprobe für die Gesamtbevölkerung repräsentativ sind.

Deskriptive vs. Inferenzstatistik

Obwohl beschreibende Statistiken hilfreich sind, um Dinge wie die Verbreitung und die Mitte der Daten zu lernen, kann nichts in beschreibenden Statistiken verwendet werden, um Verallgemeinerungen vorzunehmen. In der deskriptiven Statistik werden Messungen wie Mittelwert und Standardabweichung als exakte Zahlen angegeben.

Auch wenn für die Inferenzstatistik einige ähnliche Berechnungen verwendet werden - wie der Mittelwert und die Standardabweichung - ist der Fokus für die Inferenzstatistik unterschiedlich. Inferenzstatistiken beginnen mit einer Stichprobe und werden dann auf eine Population verallgemeinert. Diese Information über eine Population wird nicht als Zahl angegeben. Stattdessen drücken Wissenschaftler diese Parameter als eine Reihe potenzieller Zahlen zusammen mit einem gewissen Maß an Vertrauen aus.