Freiheitsgrade für die Unabhängigkeit von Variablen in der Zwei-Wege-Tabelle

Die Anzahl der Freiheitsgrade für die Unabhängigkeit von zwei kategorialen Variablen wird durch eine einfache Formel angegeben: (r - 1) (c - 1). Hier r ist die Anzahl der Zeilen und c ist die Anzahl der Spalten in der Zwei-Wege-Tabelle der Werte der kategorialen Variablen. Lesen Sie weiter, um mehr über dieses Thema zu erfahren und zu verstehen, warum diese Formel die richtige Zahl angibt.

Hintergrund

Ein Schritt im Prozess vieler Hypothesentests ist die Bestimmung der Anzahl der Freiheitsgrade. Diese Zahl ist wichtig, da für Wahrscheinlichkeitsverteilungen, die eine Verteilungsfamilie wie die Chi-Quadrat-Verteilung umfassen, die Anzahl der Freiheitsgrade die genaue Verteilung aus der Familie bestimmt, die wir in unserem Hypothesentest verwenden sollten.

Freiheitsgrade sind die Anzahl der freien Entscheidungen, die wir in einer bestimmten Situation treffen können. Einer der Hypothesentests, bei dem wir die Freiheitsgrade bestimmen müssen, ist der Chi-Quadrat-Test für die Unabhängigkeit für zwei kategoriale Variablen.

Tests für Unabhängigkeit und Zwei-Wege-Tabellen

Der Chi-Quadrat-Test für Unabhängigkeit erfordert die Erstellung einer Zwei-Wege-Tabelle, die auch als Kontingenztabelle bezeichnet wird. Diese Art von Tisch hat r Reihen und c Spalten, die die r Ebenen einer kategorialen Variablen und der c Ebenen der anderen kategorialen Variablen. Wenn wir also die Zeilen und Spalten, in denen wir Summen aufzeichnen, nicht zählen, gibt es insgesamt rc Zellen in der Zwei-Wege-Tabelle.

Mit dem Chi-Quadrat-Test auf Unabhängigkeit können wir die Hypothese prüfen, dass die kategorialen Variablen unabhängig voneinander sind. Wie oben erwähnt, ist die r Reihen und c Spalten in der Tabelle geben uns (r - 1) (c - 1) Freiheitsgrade. Es ist jedoch möglicherweise nicht sofort klar, warum dies die richtige Anzahl von Freiheitsgraden ist.

Die Anzahl der Freiheitsgrade

Um zu sehen warum (r - 1) (c - 1) ist die richtige Zahl, wir werden diese Situation genauer untersuchen. Angenommen, wir kennen die Randsummen für jede Ebene unserer kategorialen Variablen. Mit anderen Worten, wir kennen die Summe für jede Zeile und die Summe für jede Spalte. Für die erste Reihe gibt es c Spalten in unserer Tabelle, also gibt es c Zellen. Sobald wir die Werte aller außer einer dieser Zellen kennen, ist es ein einfaches Algebra-Problem, den Wert der verbleibenden Zelle zu bestimmen, da wir die Summe aller Zellen kennen. Wenn wir diese Zellen unserer Tabelle ausfüllen würden, könnten wir eintreten c - 1 von ihnen frei, aber dann wird die verbleibende Zelle durch die Summe der Zeile bestimmt. So gibt es c - 1 Freiheitsgrade für die erste Reihe.

Wir fahren auf diese Weise für die nächste Reihe fort, und es gibt wieder c - 1 Freiheitsgrade. Dieser Vorgang wird fortgesetzt, bis wir zur vorletzten Zeile gelangen. Jede der Zeilen mit Ausnahme der letzten trägt bei c - 1 Freiheitsgrade zur Summe. Wenn wir alle bis auf die letzte Zeile haben, können wir, da wir die Spaltensumme kennen, alle Einträge der letzten Zeile bestimmen. Das gibt uns r - 1 Reihen mit c - Jeweils 1 Freiheitsgrad für insgesamt (r - 1) (c - 1) Freiheitsgrade.

Beispiel

Das sehen wir am folgenden Beispiel. Angenommen, wir haben eine Zwei-Wege-Tabelle mit zwei kategorialen Variablen. Eine Variable hat drei Ebenen und die andere zwei. Angenommen, wir kennen die Zeilen- und Spaltensummen für diese Tabelle:

Stufe A Stufe B Gesamt
Level 1 100
Level 2 200
Stufe 3 300
Gesamt 200 400 600

Die Formel sagt voraus, dass es (3-1) (2-1) = 2 Freiheitsgrade gibt. Wir sehen das wie folgt. Angenommen, wir füllen die obere linke Zelle mit der Nummer 80 aus. Dadurch wird automatisch die gesamte erste Zeile der Einträge bestimmt:

Stufe A Stufe B Gesamt
Level 1 80 20 100
Level 2 200
Stufe 3 300
Gesamt 200 400 600

Wenn wir nun wissen, dass der erste Eintrag in der zweiten Zeile 50 ist, wird der Rest der Tabelle ausgefüllt, da wir die Summe jeder Zeile und Spalte kennen:

Stufe A Stufe B Gesamt
Level 1 80 20 100
Level 2 50 150 200
Stufe 3 70 230 300
Gesamt 200 400 600

Die Tabelle ist vollständig ausgefüllt, aber wir hatten nur zwei freie Entscheidungen. Sobald diese Werte bekannt waren, wurde der Rest der Tabelle vollständig bestimmt.

Obwohl wir normalerweise nicht wissen müssen, warum es so viele Freiheitsgrade gibt, ist es gut zu wissen, dass wir das Konzept der Freiheitsgrade wirklich nur auf eine neue Situation anwenden.