Ein Histogramm ist eine von vielen Arten von Diagrammen, die in Statistiken und Wahrscheinlichkeiten häufig verwendet werden. Histogramme bieten eine visuelle Anzeige quantitativer Daten mithilfe vertikaler Balken. Die Höhe eines Balkens gibt die Anzahl der Datenpunkte an, die innerhalb eines bestimmten Wertebereichs liegen. Diese Bereiche werden Klassen oder Klassen genannt.
Es gibt wirklich keine Regel für die Anzahl der Klassen. In Bezug auf die Anzahl der Klassen sind einige Dinge zu beachten. Wenn es nur eine Klasse gäbe, würden alle Daten in diese Klasse fallen. Unser Histogramm wäre einfach ein einzelnes Rechteck, dessen Höhe sich aus der Anzahl der Elemente in unserem Datensatz ergibt. Dies würde kein sehr hilfreiches oder nützliches Histogramm ergeben.
Im anderen Extrem könnten wir eine Vielzahl von Klassen haben. Dies würde zu einer Vielzahl von Balken führen, von denen wahrscheinlich keiner sehr hoch wäre. Es wäre sehr schwierig, unter Verwendung dieses Histogrammtyps Unterscheidungsmerkmale von den Daten zu bestimmen.
Um diesen beiden Extremen vorzubeugen, müssen wir eine Faustregel verwenden, um die Anzahl der Klassen für ein Histogramm zu bestimmen. Wenn wir einen relativ kleinen Datensatz haben, verwenden wir normalerweise nur etwa fünf Klassen. Wenn der Datensatz relativ groß ist, verwenden wir ungefähr 20 Klassen.
Es sei nochmals betont, dass dies eine Faustregel und kein absolutes statistisches Prinzip ist. Es kann gute Gründe dafür geben, eine andere Anzahl von Klassen für Daten zu haben. Wir werden unten ein Beispiel dafür sehen.
Bevor wir ein paar Beispiele betrachten, werden wir sehen, wie man bestimmt, was die Klassen tatsächlich sind. Wir beginnen diesen Prozess, indem wir den Umfang unserer Daten ermitteln. Mit anderen Worten, wir subtrahieren den niedrigsten Datenwert vom höchsten Datenwert.
Wenn der Datensatz relativ klein ist, teilen wir den Bereich durch fünf. Der Quotient ist die Breite der Klassen für unser Histogramm. In diesem Prozess müssen wir wahrscheinlich eine Rundung vornehmen, was bedeutet, dass die Gesamtzahl der Klassen möglicherweise nicht fünf beträgt.
Wenn der Datensatz relativ groß ist, teilen wir den Bereich durch 20. Wie zuvor gibt uns dieses Teilungsproblem die Breite der Klassen für unser Histogramm. Wie wir bereits gesehen haben, kann unsere Rundung auch zu etwas mehr oder etwas weniger als 20 Klassen führen.
In Fällen mit großem oder kleinem Datensatz beginnt die erste Klasse an einem Punkt, der geringfügig kleiner als der kleinste Datenwert ist. Wir müssen dies so tun, dass der erste Datenwert in die erste Klasse fällt. Andere nachfolgende Klassen werden durch die Breite bestimmt, die bei der Aufteilung des Bereichs festgelegt wurde. Wir wissen, dass wir uns in der letzten Klasse befinden, wenn unser höchster Datenwert in dieser Klasse enthalten ist.
Als Beispiel ermitteln wir eine geeignete Klassenbreite und Klassen für den Datensatz: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3 9,0, 9,2, 11,1, 11,2, 14,4, 15,5, 15,5, 16,7, 18,9, 19,2.
Wir sehen, dass unser Satz 27 Datenpunkte enthält. Dies ist eine relativ kleine Menge und wir werden den Bereich durch fünf teilen. Der Bereich liegt zwischen 19,2 und 1,1 = 18,1. Wir teilen 18,1 / 5 = 3,62. Dies bedeutet, dass eine Klassenbreite von 4 angemessen wäre. Unser kleinster Datenwert ist 1,1, daher beginnen wir die erste Klasse an einem Punkt, der darunter liegt. Da unsere Daten aus positiven Zahlen bestehen, ist es sinnvoll, die erste Klasse von 0 auf 4 zu ändern.
Die daraus resultierenden Klassen sind:
Es kann einige sehr gute Gründe geben, von den obigen Empfehlungen abzuweichen.
Nehmen wir zum Beispiel an, es gibt einen Multiple-Choice-Test mit 35 Fragen und 1000 Schülerinnen und Schüler einer weiterführenden Schule machen den Test. Wir möchten ein Histogramm erstellen, das die Anzahl der Schüler angibt, die im Test bestimmte Ergebnisse erzielt haben. Wir sehen, dass 35/5 = 7 und 35/20 = 1,75. Obwohl wir nach unserer Faustregel die Auswahl zwischen Klassen der Breite 2 oder 7 für unser Histogramm haben, ist es möglicherweise besser, Klassen der Breite 1 zu verwenden. Diese Klassen würden jeder Frage entsprechen, die ein Schüler im Test richtig beantwortet hat. Die erste davon würde bei 0 zentriert sein und die letzte würde bei 35 zentriert sein.
Dies ist ein weiteres Beispiel, das zeigt, dass wir beim Umgang mit Statistiken immer nachdenken müssen.