Bei einer gegebenen Datensequenz ist eine Frage, die wir uns fragen können, ob die Sequenz durch Zufallsphänomene aufgetreten ist oder ob die Daten nicht zufällig sind. Zufälligkeit ist schwer zu identifizieren, da es sehr schwierig ist, Daten einfach zu betrachten und festzustellen, ob sie zufällig erzeugt wurden oder nicht. Eine Methode, mit der festgestellt werden kann, ob eine Sequenz wirklich zufällig aufgetreten ist, ist der Runs-Test.
Der Durchlauftest ist ein Signifikanztest oder ein Hypothesentest. Das Verfahren für diesen Test basiert auf einem Durchlauf oder einer Sequenz von Daten, die ein bestimmtes Merkmal aufweisen. Um zu verstehen, wie der Lauftest funktioniert, müssen wir zuerst das Konzept eines Laufs untersuchen.
Wir beginnen mit einem Beispiel von Läufen. Betrachten Sie die folgende Folge von Zufallszahlen:
6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5
Eine Möglichkeit, diese Ziffern zu klassifizieren, besteht darin, sie in zwei Kategorien zu unterteilen, entweder gerade (einschließlich der Ziffern 0, 2, 4, 6 und 8) oder ungerade (einschließlich der Ziffern 1, 3, 5, 7 und 9). Wir werden uns die Folge von Zufallszahlen ansehen und die geraden Zahlen als E und die ungeraden Zahlen als O bezeichnen:
E E E E E E E E E E E E E E
Die Läufe sind leichter zu sehen, wenn wir dies umschreiben, so dass alle Os zusammen und alle Es zusammen sind:
EE O EE OO E O EEEEE O EE OO
Wir zählen die Anzahl der Blöcke mit geraden oder ungeraden Zahlen und stellen fest, dass es insgesamt zehn Durchläufe für die Daten gibt. Vier Läufe haben die Länge eins, fünf die Länge zwei und einer die Länge fünf
Bei jedem Test von Bedeutung ist es wichtig zu wissen, welche Bedingungen für die Durchführung des Tests erforderlich sind. Für den Durchlauftest können wir jeden Datenwert aus der Stichprobe in eine von zwei Kategorien einteilen. Wir werden die Gesamtzahl der Läufe relativ zur Anzahl der Datenwerte zählen, die in jede Kategorie fallen.
Der Test wird zweiseitig sein. Der Grund dafür ist, dass zu wenige Durchläufe bedeuten, dass es wahrscheinlich nicht genügend Variationen gibt und die Anzahl der Durchläufe, die bei einem zufälligen Prozess auftreten würden. Zu viele Läufe führen dazu, dass ein Prozess zu häufig zwischen den Kategorien wechselt, um zufällig beschrieben zu werden.
Jeder Signifikanztest hat eine Null- und eine Alternativhypothese. Für den Durchlauftest lautet die Nullhypothese, dass die Sequenz eine zufällige Sequenz ist. Die alternative Hypothese ist, dass die Reihenfolge der Probendaten nicht zufällig ist.
Die Statistiksoftware kann den p-Wert berechnen, der einer bestimmten Teststatistik entspricht. Es gibt auch Tabellen, die kritische Zahlen auf einem bestimmten Signifikanzniveau für die Gesamtzahl der Läufe angeben.
Wir werden das folgende Beispiel durcharbeiten, um zu sehen, wie der Durchlauftest funktioniert. Angenommen, für eine Aufgabe wird ein Schüler aufgefordert, 16 Mal eine Münze zu werfen und die Reihenfolge der angezeigten Kopf- und Zahlzeichen zu notieren. Wenn wir mit diesem Datensatz enden:
H H H H H H H H H H H H H
Wir könnten fragen, ob der Schüler tatsächlich seine Hausaufgaben gemacht hat oder ob er eine Reihe von H und T betrogen und aufgeschrieben hat, die zufällig aussehen? Der Test kann uns helfen. Die Annahmen für den Durchlauftest sind erfüllt, da die Daten in zwei Gruppen eingeteilt werden können, entweder als Kopf oder Schwanz. Wir machen weiter, indem wir die Anzahl der Läufe zählen. Umgruppierung sehen wir folgendes:
H H H H H H H H H H H H
Es gibt zehn Läufe für unsere Daten mit sieben Schwänzen und neun Köpfen.
Die Nullhypothese ist, dass die Daten zufällig sind. Die Alternative ist, dass es nicht zufällig ist. Bei einem Signifikanzniveau von Alpha von 0,05 sehen wir anhand der richtigen Tabelle, dass wir die Nullhypothese ablehnen, wenn die Anzahl der Läufe entweder kleiner als 4 oder größer als 16 ist. Da unsere Daten zehn Läufe enthalten, schlagen wir fehl die Nullhypothese abzulehnen H0.
Der Durchlauftest ist ein nützliches Werkzeug, um festzustellen, ob eine Sequenz wahrscheinlich zufällig ist oder nicht. Für einen großen Datensatz ist es manchmal möglich, eine normale Annäherung zu verwenden. Für diese normale Annäherung müssen wir die Anzahl der Elemente in jeder Kategorie verwenden und dann den Mittelwert und die Standardabweichung der entsprechenden Normalverteilung berechnen.