In der Statistik gibt es viele Begriffe, zwischen denen subtile Unterschiede bestehen. Ein Beispiel hierfür ist der Unterschied zwischen Frequenz und relativer Frequenz. Obwohl es viele Verwendungen für relative Frequenzen gibt, gibt es eine, die insbesondere ein relatives Frequenzhistogramm beinhaltet. Dies ist ein Diagrammtyp, der Verbindungen zu anderen Themen in der Statistik und der mathematischen Statistik aufweist.
Histogramme sind statistische Diagramme, die wie Balkendiagramme aussehen. Typischerweise ist der Begriff Histogramm jedoch für quantitative Variablen reserviert. Die horizontale Achse eines Histogramms ist eine Zahlenlinie, die Klassen oder Klassen einheitlicher Länge enthält. Diese Klassen sind Intervalle einer Zahlenreihe, in die Daten fallen können und die aus einer einzelnen Zahl (normalerweise für relativ kleine diskrete Datensätze) oder einem Wertebereich (für größere diskrete Datensätze und fortlaufende Daten) bestehen können..
Zum Beispiel könnten wir daran interessiert sein, die Verteilung der Punkte in einem 50-Punkte-Quiz für eine Klasse von Schülern zu berücksichtigen. Eine Möglichkeit, die Bins zu konstruieren, besteht darin, für jeweils 10 Punkte einen anderen Bin zu haben.
Die vertikale Achse eines Histogramms stellt die Anzahl oder Häufigkeit dar, mit der ein Datenwert in jedem der Fächer auftritt. Je höher der Balken ist, desto mehr Datenwerte fallen in diesen Bereich der Bin-Werte. Um zu unserem Beispiel zurückzukehren: Wenn es fünf Schüler gibt, die mehr als 40 Punkte im Quiz erzielt haben, ist der Balken, der dem 40- bis 50-fach entspricht, fünf Einheiten hoch.
Ein relatives Frequenzhistogramm ist eine geringfügige Änderung eines typischen Frequenzhistogramms. Anstatt eine vertikale Achse für die Anzahl der Datenwerte zu verwenden, die in einen bestimmten Bereich fallen, verwenden wir diese Achse, um den Gesamtanteil der Datenwerte darzustellen, die in diesen Bereich fallen. Da 100% = 1, müssen alle Balken eine Höhe von 0 bis 1 haben. Außerdem müssen die Höhen aller Balken in unserem relativen Frequenzhistogramm 1 ergeben.
Angenommen, in dem Beispiel, das wir uns angesehen haben, sind 25 Schüler in unserer Klasse und fünf haben mehr als 40 Punkte erzielt. Anstatt einen Balken der Höhe 5 für diesen Behälter zu konstruieren, hätten wir einen Balken der Höhe 5/25 = 0,2.
Vergleicht man ein Histogramm mit einem relativen Frequenzhistogramm, das jeweils die gleichen Klassen enthält, so fällt uns etwas auf. Die Gesamtform der Histogramme ist identisch. Ein relatives Frequenzhistogramm betont nicht die Gesamtanzahl in jedem Bin. Stattdessen konzentriert sich diese Art von Grafik darauf, wie sich die Anzahl der Datenwerte im Bin auf die anderen Bins bezieht. Diese Beziehung wird in Prozent der Gesamtzahl der Datenwerte angezeigt.
Wir mögen uns fragen, worauf es bei der Definition eines relativen Frequenzhistogramms ankommt. Eine Schlüsselanwendung betrifft diskrete Zufallsvariablen, bei denen unsere Klassen die Breite eins haben und um jede nichtnegative ganze Zahl zentriert sind. In diesem Fall können wir eine stückweise Funktion mit Werten definieren, die den vertikalen Höhen der Balken in unserem relativen Frequenzhistogramm entsprechen.
Diese Art von Funktion wird als Wahrscheinlichkeitsmassenfunktion bezeichnet. Der Grund für die Konstruktion der Funktion auf diese Weise ist, dass die von der Funktion definierte Kurve einen direkten Zusammenhang mit der Wahrscheinlichkeit hat. Der Bereich unter der Kurve aus den Werten ein zu b ist die Wahrscheinlichkeit, dass die Zufallsvariable einen Wert von hat ein zu b.
Der Zusammenhang zwischen Wahrscheinlichkeit und Fläche unter der Kurve kommt in der mathematischen Statistik immer wieder vor. Die Verwendung einer Wahrscheinlichkeitsmassenfunktion zum Modellieren eines relativen Frequenzhistogramms ist eine weitere solche Verbindung.