Was ist eine ANOVA?

Wenn wir eine Gruppe studieren, vergleichen wir oft zwei Populationen. Abhängig von den Parametern dieser Gruppe, an denen wir interessiert sind, und den Bedingungen, mit denen wir zu tun haben, stehen verschiedene Techniken zur Verfügung. Statistische Inferenzverfahren, die den Vergleich von zwei Populationen betreffen, können normalerweise nicht auf drei oder mehr Populationen angewendet werden. Um mehr als zwei Populationen gleichzeitig zu untersuchen, benötigen wir verschiedene Arten von statistischen Instrumenten. Die Varianzanalyse oder ANOVA ist eine Technik aus statistischen Interferenzen, die es uns ermöglicht, mit mehreren Populationen umzugehen.

Vergleich der Mittel

Um zu sehen, welche Probleme auftreten und warum wir ANOVA benötigen, betrachten wir ein Beispiel. Nehmen wir an, wir versuchen zu bestimmen, ob die Durchschnittsgewichte von grünen, roten, blauen und orangefarbenen M & M-Bonbons voneinander abweichen. Wir geben die mittleren Gewichte für jede dieser Populationen an, μ₁, μ₂, μ₃ μ₄ bzw.. Wir können den entsprechenden Hypothesentest mehrmals verwenden und C (4,2) oder sechs verschiedene Nullhypothesen testen:

H₀: μ₁ = μ₂ um zu überprüfen, ob das Durchschnittsgewicht der Bevölkerung der roten Bonbons vom Durchschnittsgewicht der Bevölkerung der blauen Bonbons abweicht.
H₀: μ₂ = μ₃ um zu überprüfen, ob das Durchschnittsgewicht der Bevölkerung der blauen Bonbons vom Durchschnittsgewicht der Bevölkerung der grünen Bonbons abweicht.
H₀: μ₃ = μ₄ um zu überprüfen, ob das Durchschnittsgewicht der Population der grünen Bonbons vom Durchschnittsgewicht der Population der orangen Bonbons abweicht.
H₀: μ₄ = μ₁ um zu überprüfen, ob das Durchschnittsgewicht der Population der Orangenbonbons von dem Durchschnittsgewicht der Population der roten Bonbons abweicht.
H₀: μ₁ = μ₃ um zu überprüfen, ob das Durchschnittsgewicht der Population der roten Bonbons vom Durchschnittsgewicht der Population der grünen Bonbons abweicht.
H₀: μ₂ = μ₄ um zu überprüfen, ob das Durchschnittsgewicht der Bevölkerung der blauen Bonbons vom Durchschnittsgewicht der Bevölkerung der orangefarbenen Bonbons abweicht.

Es gibt viele Probleme mit dieser Art von Analyse. Wir werden sechs haben p-Werte. Auch wenn wir jedes bei einem Vertrauensniveau von 95% testen, ist unser Vertrauen in den Gesamtprozess geringer, da sich die Wahrscheinlichkeiten multiplizieren: .95 x .95 x .95 x .95 x .95 x .95 x .95 ist ungefähr .74, oder ein Vertrauensniveau von 74%. Somit hat sich die Wahrscheinlichkeit eines Fehlers vom Typ I erhöht.

Auf einer grundlegenderen Ebene können wir diese vier Parameter nicht als Ganzes vergleichen, indem wir sie zu zwei gleichzeitig vergleichen. Das Mittel der roten und blauen M & Ms kann signifikant sein, wobei das mittlere Gewicht von Rot relativ größer ist als das mittlere Gewicht von Blau. Wenn wir jedoch das mittlere Gewicht aller vier Arten von Süßigkeiten betrachten, gibt es möglicherweise keinen signifikanten Unterschied.

Varianzanalyse

Um Situationen zu bewältigen, in denen wir mehrere Vergleiche durchführen müssen, verwenden wir ANOVA. Dieser Test ermöglicht es uns, die Parameter mehrerer Populationen gleichzeitig zu betrachten, ohne auf einige der Probleme einzugehen, mit denen wir konfrontiert sind, indem wir Hypothesentests mit zwei Parametern gleichzeitig durchführen.

Um eine ANOVA mit dem obigen M & M-Beispiel durchzuführen, würden wir die Nullhypothese H testen₀: μ₁ = μ₂ = μ₃= μ₄. Dies besagt, dass es keinen Unterschied zwischen den Durchschnittsgewichten der roten, blauen und grünen M & M gibt. Die alternative Hypothese ist, dass es einen gewissen Unterschied zwischen den Durchschnittsgewichten der roten, blauen, grünen und orangefarbenen M & M gibt. Diese Hypothese ist eigentlich eine Kombination mehrerer Aussagen H_ein:

Das Durchschnittsgewicht der Population roter Bonbons entspricht nicht dem Durchschnittsgewicht der Population blauer Bonbons (OR)
Das Durchschnittsgewicht der Population von blauen Bonbons entspricht nicht dem Durchschnittsgewicht der Population von grünen Bonbons, OR
Das Durchschnittsgewicht der Population grüner Bonbons entspricht nicht dem Durchschnittsgewicht der Population oranger Bonbons, OR
Das Durchschnittsgewicht der Population grüner Bonbons entspricht nicht dem Durchschnittsgewicht der Population roter Bonbons, OR
Das Durchschnittsgewicht der Population von blauen Bonbons entspricht nicht dem Durchschnittsgewicht der Population von orangen Bonbons, OR
Das Durchschnittsgewicht der Bevölkerung mit blauen Bonbons entspricht nicht dem Durchschnittsgewicht der Bevölkerung mit roten Bonbons.

In diesem speziellen Fall würden wir, um unseren p-Wert zu erhalten, eine Wahrscheinlichkeitsverteilung verwenden, die als F-Verteilung bekannt ist. Berechnungen mit dem ANOVA F-Test können von Hand durchgeführt werden, werden jedoch normalerweise mit statistischer Software berechnet.

Mehrere Vergleiche

Was unterscheidet ANOVA von anderen statistischen Techniken ist, dass es verwendet wird, um mehrere Vergleiche durchzuführen. Dies ist in der gesamten Statistik üblich, da wir häufig mehr als nur zwei Gruppen vergleichen möchten. In der Regel deutet ein Gesamttest auf einen Unterschied zwischen den untersuchten Parametern hin. Wir folgen diesem Test mit einer anderen Analyse, um zu entscheiden, welcher Parameter unterschiedlich ist.

Wissenschaft