Grundlegendes zu Quantildefinitionen und -verwendungen

Zusammenfassende Statistiken wie der Median, das erste Quartil und das dritte Quartil sind Positionsmessungen. Dies liegt daran, dass diese Zahlen angeben, wo ein bestimmter Anteil der Datenverteilung liegt. Beispielsweise ist der Median die mittlere Position der untersuchten Daten. Die Hälfte der Daten weist Werte auf, die unter dem Median liegen. In ähnlicher Weise weisen 25% der Daten Werte auf, die kleiner als das erste Viertel sind, und 75% der Daten weisen Werte auf, die kleiner als das dritte Viertel sind.

Dieses Konzept kann verallgemeinert werden. Eine Möglichkeit, dies zu tun, besteht darin, Perzentile zu berücksichtigen. Das 90. Perzentil gibt den Punkt an, an dem 90% der Daten Werte aufweisen, die unter dieser Zahl liegen. Im Allgemeinen ist die pDas Perzentil ist die Zahl n für welche p% der Daten ist kleiner als n.

Kontinuierliche Zufallsvariablen

Obwohl die Ordnungsstatistik des Medians, des ersten Quartils und des dritten Quartils typischerweise in einer Umgebung mit einem diskreten Datensatz eingeführt wird, können diese Statistiken auch für eine kontinuierliche Zufallsvariable definiert werden. Da wir mit einer kontinuierlichen Verteilung arbeiten, verwenden wir das Integral. Das pDas Perzentil ist eine Zahl n so dass:

-₶n f ( x ) dx = p/100.

Hier f ( x ) ist eine Wahrscheinlichkeitsdichtefunktion. So können wir jedes gewünschte Perzentil für eine kontinuierliche Verteilung erhalten.

Quantile

Eine weitere Verallgemeinerung ist, dass unsere Auftragsstatistik die Distribution aufteilt, mit der wir arbeiten. Der Median teilt den Datensatz in zwei Hälften und der Median oder das 50. Perzentil einer kontinuierlichen Verteilung teilt die Verteilung in zwei Hälften in Bezug auf die Fläche. Das erste Quartil, der Median und das dritte Quartil unterteilen unsere Daten in vier Teile mit jeweils der gleichen Anzahl. Wir können das obige Integral verwenden, um das 25., 50. und 75. Perzentil zu erhalten und eine kontinuierliche Verteilung in vier Teile gleicher Fläche aufzuteilen.

Wir können dieses Verfahren verallgemeinern. Die Frage, mit der wir beginnen können, hat eine natürliche Nummer n, Wie können wir die Verteilung einer Variablen aufteilen? n gleich große Stücke? Dies spricht direkt für die Idee der Quantile.

Das n Quantile für einen Datensatz werden ungefähr gefunden, indem die Daten in der richtigen Reihenfolge eingestuft und dann durch diese Rangfolge geteilt werden n - 1 gleichmäßig verteilte Punkte im Intervall.

Wenn wir eine Wahrscheinlichkeitsdichtefunktion für eine kontinuierliche Zufallsvariable haben, verwenden wir das obige Integral, um die Quantile zu finden. Zum n Quantile wollen wir:

  • Der Erste, der 1 / hatn des Bereichs der Verteilung auf der linken Seite davon.
  • Der zweite zu haben 2 /n des Bereichs der Verteilung auf der linken Seite davon.
  • Das rth zu haben r/n des Bereichs der Verteilung auf der linken Seite davon.
  • Die letzten zu haben (n - 1) /n des Bereichs der Verteilung auf der linken Seite davon.

Wir sehen das für jede natürliche Zahl n, das n Quantile entsprechen den 100r/nPerzentile, wo r kann eine beliebige natürliche Zahl von 1 bis sein n - 1.

Gemeinsame Quantile

Bestimmte Arten von Quantilen werden häufig genug verwendet, um bestimmte Namen zu haben. Nachfolgend finden Sie eine Liste dieser:

  • Das 2-Quantil heißt Median
  • Die 3 Quantile heißen Terciles
  • Die 4 Quantile heißen Quartile
  • Die 5 Quantile heißen Quintile
  • Die 6 Quantile heißen Sextile
  • Die 7 Quantile heißen Septile
  • Die 8 Quantile heißen Oktile
  • Die 10 Quantile werden Dezile genannt
  • Die 12 Quantile werden Duodekile genannt
  • Die 20 Quantile werden Vigintile genannt
  • Die 100 Quantile werden Perzentile genannt
  • Die 1000 Quantile heißen Permillen

Natürlich gibt es andere Quantile als die oben aufgeführten. Vielfach entspricht das verwendete spezifische Quantil der Größe der Stichprobe aus einer kontinuierlichen Verteilung.

Verwendung von Quantilen

Neben der Angabe der Position eines Datensatzes sind Quantile auf andere Weise hilfreich. Angenommen, wir haben eine einfache Zufallsstichprobe aus einer Population und die Verteilung der Population ist unbekannt. Um herauszufinden, ob ein Modell wie eine Normalverteilung oder eine Weibull-Verteilung gut zur Grundgesamtheit passt, aus der wir eine Stichprobe gezogen haben, können wir die Quantile unserer Daten und das Modell betrachten.

Durch die Zuordnung der Quantile aus unseren Beispieldaten zu den Quantilen aus einer bestimmten Wahrscheinlichkeitsverteilung entsteht eine Sammlung gepaarter Daten. Wir zeichnen diese Daten in einem Streudiagramm, das als Quantil-Quantil-Diagramm oder q-q-Diagramm bezeichnet wird. Wenn das resultierende Streudiagramm ungefähr linear ist, passt das Modell gut zu unseren Daten.