Wenn wir eine Gruppe studieren, vergleichen wir oft zwei Populationen. Abhängig von den Parametern dieser Gruppe, an denen wir interessiert sind, und den Bedingungen, mit denen wir zu tun haben, stehen verschiedene Techniken zur Verfügung. Statistische Inferenzverfahren, die den Vergleich von zwei Populationen betreffen, können normalerweise nicht auf drei oder mehr Populationen angewendet werden. Um mehr als zwei Populationen gleichzeitig zu untersuchen, benötigen wir verschiedene Arten von statistischen Instrumenten. Die Varianzanalyse oder ANOVA ist eine Technik aus statistischen Interferenzen, die es uns ermöglicht, mit mehreren Populationen umzugehen.
Um zu sehen, welche Probleme auftreten und warum wir ANOVA benötigen, betrachten wir ein Beispiel. Nehmen wir an, wir versuchen zu bestimmen, ob die Durchschnittsgewichte von grünen, roten, blauen und orangefarbenen M & M-Bonbons voneinander abweichen. Wir geben die mittleren Gewichte für jede dieser Populationen an, μ1, μ2, μ3 μ4 bzw.. Wir können den entsprechenden Hypothesentest mehrmals verwenden und C (4,2) oder sechs verschiedene Nullhypothesen testen:
Es gibt viele Probleme mit dieser Art von Analyse. Wir werden sechs haben p-Werte. Auch wenn wir jedes bei einem Vertrauensniveau von 95% testen, ist unser Vertrauen in den Gesamtprozess geringer, da sich die Wahrscheinlichkeiten multiplizieren: .95 x .95 x .95 x .95 x .95 x .95 x .95 ist ungefähr .74, oder ein Vertrauensniveau von 74%. Somit hat sich die Wahrscheinlichkeit eines Fehlers vom Typ I erhöht.
Auf einer grundlegenderen Ebene können wir diese vier Parameter nicht als Ganzes vergleichen, indem wir sie zu zwei gleichzeitig vergleichen. Das Mittel der roten und blauen M & Ms kann signifikant sein, wobei das mittlere Gewicht von Rot relativ größer ist als das mittlere Gewicht von Blau. Wenn wir jedoch das mittlere Gewicht aller vier Arten von Süßigkeiten betrachten, gibt es möglicherweise keinen signifikanten Unterschied.
Um Situationen zu bewältigen, in denen wir mehrere Vergleiche durchführen müssen, verwenden wir ANOVA. Dieser Test ermöglicht es uns, die Parameter mehrerer Populationen gleichzeitig zu betrachten, ohne auf einige der Probleme einzugehen, mit denen wir konfrontiert sind, indem wir Hypothesentests mit zwei Parametern gleichzeitig durchführen.
Um eine ANOVA mit dem obigen M & M-Beispiel durchzuführen, würden wir die Nullhypothese H testen0: μ1 = μ2 = μ3= μ4. Dies besagt, dass es keinen Unterschied zwischen den Durchschnittsgewichten der roten, blauen und grünen M & M gibt. Die alternative Hypothese ist, dass es einen gewissen Unterschied zwischen den Durchschnittsgewichten der roten, blauen, grünen und orangefarbenen M & M gibt. Diese Hypothese ist eigentlich eine Kombination mehrerer Aussagen Hein:
In diesem speziellen Fall würden wir, um unseren p-Wert zu erhalten, eine Wahrscheinlichkeitsverteilung verwenden, die als F-Verteilung bekannt ist. Berechnungen mit dem ANOVA F-Test können von Hand durchgeführt werden, werden jedoch normalerweise mit statistischer Software berechnet.
Was unterscheidet ANOVA von anderen statistischen Techniken ist, dass es verwendet wird, um mehrere Vergleiche durchzuführen. Dies ist in der gesamten Statistik üblich, da wir häufig mehr als nur zwei Gruppen vergleichen möchten. In der Regel deutet ein Gesamttest auf einen Unterschied zwischen den untersuchten Parametern hin. Wir folgen diesem Test mit einer anderen Analyse, um zu entscheiden, welcher Parameter unterschiedlich ist.