Einige Datenverteilungen, wie die Glockenkurve oder die Normalverteilung, sind symmetrisch. Dies bedeutet, dass die rechte und die linke Seite der Verteilung perfekte Spiegelbilder voneinander sind. Nicht jede Datenverteilung ist symmetrisch. Datensätze, die nicht symmetrisch sind, werden als asymmetrisch bezeichnet. Das Maß dafür, wie asymmetrisch eine Verteilung sein kann, nennt man Versatz.
Der Mittelwert, der Median und der Modus sind alles Maße für die Mitte eines Datensatzes. Die Schiefe der Daten kann dadurch bestimmt werden, wie diese Größen zueinander in Beziehung stehen.
Daten, die nach rechts verschoben sind, haben einen langen Schwanz, der sich nach rechts erstreckt. Eine andere Art, von einem rechts verzerrten Datensatz zu sprechen, ist zu sagen, dass er positiv verzerrt ist. In dieser Situation sind sowohl der Mittelwert als auch der Median größer als der Modus. In der Regel ist der Mittelwert bei Daten, die nach rechts verschoben sind, meistens größer als der Median. Zusammenfassend gilt für einen Datensatz, der nach rechts geneigt ist:
Die Situation kehrt sich um, wenn es sich um Daten handelt, die nach links verschoben sind. Daten, die nach links verschoben sind, haben einen langen Schwanz, der sich nach links erstreckt. Eine andere Art, von einem nach links versetzten Datensatz zu sprechen, ist zu sagen, dass er negativ versetzt ist. In dieser Situation sind sowohl der Mittelwert als auch der Median kleiner als der Modus. In der Regel liegt der Mittelwert bei nach links verschobenen Daten die meiste Zeit unter dem Median. Zusammenfassend gilt für einen Datensatz, der nach links geneigt ist:
Es ist eine Sache, zwei Datensätze zu betrachten und festzustellen, dass einer symmetrisch ist, während der andere asymmetrisch ist. Es ist eine andere Sache, zwei Sätze asymmetrischer Daten zu betrachten und zu sagen, dass einer stärker verzerrt ist als der andere. Es kann sehr subjektiv sein, durch einfaches Betrachten des Verteilungsgraphen festzustellen, welche Werte stärker verzerrt sind. Aus diesem Grund gibt es Möglichkeiten, das Maß für die Schiefe numerisch zu berechnen.
Ein Maß für die Schiefe, Pearsons erster Schiefheitskoeffizient genannt, besteht darin, den Mittelwert vom Modus zu subtrahieren und diese Differenz durch die Standardabweichung der Daten zu dividieren. Der Grund für die Aufteilung der Differenz ist, dass wir eine dimensionslose Größe haben. Dies erklärt, warum nach rechts verschobene Daten eine positive Verschiebung aufweisen. Wenn der Datensatz nach rechts verschoben ist, ist der Mittelwert größer als der Modus. Wenn Sie also den Modus vom Mittelwert subtrahieren, erhalten Sie eine positive Zahl. Ein ähnliches Argument erklärt, warum nach links verschobene Daten eine negative Verschiebung aufweisen.
Pearsons zweiter Schräglaufkoeffizient wird auch zur Messung der Asymmetrie eines Datensatzes verwendet. Für diese Größe subtrahieren wir den Modus vom Median, multiplizieren diese Zahl mit drei und dividieren dann durch die Standardabweichung.
Verzerrte Daten entstehen ganz natürlich in verschiedenen Situationen. Die Einkommen sind nach rechts verzerrt, da selbst einige wenige Personen, die Millionen von Dollar verdienen, den Durchschnitt stark beeinflussen können und es keine negativen Einkommen gibt. In ähnlicher Weise sind Daten, die die Lebensdauer eines Produkts betreffen, wie z. B. eine Glühbirnenmarke, nach rechts verschoben. Hier ist das kleinste, das eine Lebensdauer haben kann, Null, und langlebige Glühbirnen verleihen den Daten eine positive Schiefe.