Übersicht über Simpsons Paradox in der Statistik

Ein Paradoxon ist eine Aussage oder ein Phänomen, das auf den ersten Blick widersprüchlich erscheint. Paradoxe helfen dabei, die zugrunde liegende Wahrheit unter der Oberfläche dessen zu enthüllen, was absurd erscheint. Auf dem Gebiet der Statistik zeigt Simpsons Paradoxon, welche Probleme sich aus der Kombination von Daten aus mehreren Gruppen ergeben.

Bei allen Daten ist Vorsicht geboten. Wo ist es hergekommen? Wie wurde es erhalten? Und was sagt es wirklich? Dies sind alles gute Fragen, die wir uns stellen sollten, wenn uns Daten präsentiert werden. Der sehr überraschende Fall von Simpsons Paradoxon zeigt uns, dass das, was die Daten zu sagen scheinen, manchmal nicht wirklich der Fall ist.

Ein Überblick über das Paradoxon

Angenommen, wir beobachten mehrere Gruppen und stellen für jede dieser Gruppen eine Beziehung oder Korrelation her. Das Simpson-Paradoxon besagt, dass sich die zuvor festgestellte Korrelation möglicherweise umkehren kann, wenn wir alle Gruppen zusammenführen und die Daten in aggregierter Form betrachten. Dies liegt meistens an lauernden Variablen, die nicht berücksichtigt wurden, manchmal aber auch an den numerischen Werten der Daten.

Beispiel

Schauen wir uns das folgende Beispiel an, um das Paradoxon von Simpson ein wenig verständlicher zu machen. In einem bestimmten Krankenhaus gibt es zwei Chirurgen. Chirurg A operiert an 100 Patienten und 95 überleben. Chirurg B operiert bei 80 Patienten und 72 überleben. Wir denken darüber nach, eine Operation in diesem Krankenhaus durchführen zu lassen, und es ist wichtig, die Operation zu überstehen. Wir wollen den besseren der beiden Chirurgen auswählen.

Wir betrachten die Daten und verwenden sie, um zu berechnen, wie viel Prozent der Patienten von Chirurg A ihre Operationen überlebt haben, und um sie mit der Überlebensrate der Patienten von Chirurg B zu vergleichen.

  • 95 von 100 Patienten überlebten mit Chirurg A, 95/100 = 95% von ihnen überlebten.
  • 72 von 80 Patienten überlebten mit Chirurg B, so dass 72/80 = 90% von ihnen überlebten.

Welchen Chirurgen sollten wir nach dieser Analyse wählen, um uns zu behandeln? Es scheint, dass Chirurg A die sicherere Wette ist. Aber ist das wirklich wahr??

Was wäre, wenn wir die Daten weiter recherchieren und feststellen würden, dass das Krankenhaus ursprünglich zwei verschiedene Arten von Operationen in Betracht gezogen hat, dann aber alle Daten zusammengefasst hat, um über jeden seiner Chirurgen Bericht zu erstatten. Nicht alle Operationen sind gleich, einige galten als risikoreiche Notfalloperationen, während andere eher routinemäßiger Natur waren und im Voraus geplant worden waren.

Von den 100 Patienten, die der Chirurg A behandelte, hatten 50 ein hohes Risiko, von denen drei starben. Die anderen 50 wurden als Routine eingestuft und von diesen 2 starben. Dies bedeutet, dass bei einer Routineoperation ein von Chirurg A behandelter Patient eine Überlebensrate von 48/50 = 96% aufweist.

Jetzt schauen wir uns die Daten für Chirurg B genauer an und stellen fest, dass von 80 Patienten 40 ein hohes Risiko aufwiesen, von denen sieben starben. Die anderen 40 waren Routine und nur einer starb. Dies bedeutet, dass ein Patient bei einer Routineoperation mit Chirurg B eine Überlebensrate von 39/40 = 97,5% hat.

Welcher Chirurg scheint jetzt besser zu sein? Wenn Ihre Operation eine Routineoperation sein soll, ist Chirurg B tatsächlich der bessere Chirurg. Wenn wir uns alle Operationen ansehen, die von den Chirurgen durchgeführt werden, ist A besser. Das ist ziemlich eingängig. In diesem Fall beeinflusst die lauernde Variable der Art der Operation die kombinierten Daten der Chirurgen.

Geschichte von Simpsons Paradoxon

Simpsons Paradoxon ist nach Edward Simpson benannt, der dieses Paradoxon erstmals in der Arbeit "The Interpretation of Interaction in Contingency Tables" aus dem Jahr 1951 beschrieb Zeitschrift der Royal Statistical Society. Pearson und Yule beobachteten jeweils ein halbes Jahrhundert früher als Simpson ein ähnliches Paradoxon, weshalb Simpsons Paradoxon manchmal auch als Simpson-Yule-Effekt bezeichnet wird.

Es gibt viele weitreichende Anwendungen des Paradoxons in so unterschiedlichen Bereichen wie Sportstatistik und Arbeitslosendaten. Achten Sie bei jeder Aggregation dieser Daten darauf, dass dieses Paradoxon auftritt.