Warum Bayes anstelle von Frequentismus?

Plädoyer pro Bayes

Dieser Post ist ein Plädoyer, Bayes-Statistik in der Statistikausbildung und in der praktischen Forschung zu nutzen. Keines der hier vorgetragenen Argumente ist neu. Die Thematik ist schon 1000 Mal diskutiert worden und oft umfangreicher und systematischer, ja besser, als in diesem Post. Ich schreibe hier kurz meine Sichtweise zusammen und verweise auf weitere Liteatur.

Bayes-Inferenz kenn ich nicht!

Die klassische Statistikausbildung in den Sozialwissenschaften beinhaltet meist kein oder kaum Bayes. Das hat vermutlich zwei Gründe: Zum ersten haben es die Dozentis selber nicht gelernt. Zum zweiten gibt es erst seit wenigen Jahren komfortable Software (und genug Rechenpower). Kein Wunder also, dass Bayes weniger bekannt ist als die “klassische”, die sog. “Frequentistische” Statistik.

Die APA fasst dies so zusammen:

Q: Why do so many colleges and grad schools teach p = 0.05?

A: Because that’s still what the scientific community and journal editors use.

Q: Why do so many people still use p = 0.05?

A: Because that’s what they were taught in college or grad school.

Aber wozu sollte ich dieses Bayes-Zeugs lernen?

Zwei Gründe, die für Bayes sprechen sind, Bayes ist einfacher und Bayes ist logischer als der Frequentismus, zumindest ist das meine Meinung. Warum ist Bayes einfacher? Vergleichen wir die Definition des p-Werts mit der Definition eines Bayes-Ergebnis:

Definition p-Wert

Der p-Wert ist die Wahrscheinlichkeit für eine Teststatistik, die mindestens so extrem ist wie die beobachtete Teststatistik unter der Annahme, dass die Nullhypothese wahr ist und mann den Versuch unendlich oft wiederholen würde unter exakt gleichen Bedingungen aber zufällig anders.

Also, wenn Sie mich fragen: Ich finde die Definition kompliziert. In einigen Studien (s.u.) fand sich, dass sich viele psychologische WissenschaftlerInnen und sogar der Statistik-Dozentis die Definition eines p-Werts falsch verstehen.

Vielleicht am bekanntesten sind die Studien von Gerd Gigerenzer dazu, z.B. diese hier:

“The crucial delusion is that the p value specifies the probability of a successful replication (i.e., 1 – p), which makes replication studies appear to be superfluous. A review of studies with 839 academic psychologists and 991 students shows that the replication delusion existed among 20% of the faculty teaching statistics in psychology, 39% of the professors and lecturers, and 66% of the students.” Quelle

Hier noch ein paar ähnliche Auszüge:

“As a result, the P value’s inferential meaning is widely and often wildly misconstrued, a fact that has been pointed out in innumerable papers and books appearing since at least the 1940s” Quelle

“We conducted a survey on 164 academic psychologists (134 Italian, 30 Chilean) questioned on this topic. Our findings are consistent with previous research and suggest that some participants do not know how to correctly interpret p-values.” Quelle

Auch (Frquentistische) Konfidenzintervalle wurden robust falsch verstanden:

“In this study, 120 researchers and 442 students—all in the field of psychology—were asked to assess the truth value of six particular statements involving different interpretations of a CI. Although all six statements were false, both researchers and students endorsed, on average, more than three statements, indicating a gross misunderstanding of CIs.” Quelle

Interpretation von Bayes ist einfach

Frequentistische Statistik ist deshalb schwer zu interpretieren, weil viele Menschen offenbar erwarten, dass sie wie eine Bayes-Statistik zu verstehen sei. Ist sie aber nicht.

Daher ist Bayes-Statistik leicht zu interpretieren. Mit Bayes kann man Aussagen treffen wie:

Mit einer Wahrscheinlichkeit von 95% lieger der Wert im Bereich von X bis Y.

Die Wahrscheinlichkeit, dass der Effekt größer als Null ist, beträgt X Prozent.

Natürlich gelten solche Aussagen immer nur bedingt auf das Modell; wenn das Modell (oder die Daten) Quark sind, dann sind auch alle Ausssagen, die auf dem Modell fußen, unbrauchbar.

Bayes ist logisch

Bayes Theorem ist nichts anderes als eine triviale Umformung grundlegender, unstrittiger Gesetze der Wahrscheinlichkeitsrechnung. Das wird von niemandem bestritten.

Der Frequentismus benutzt Methoden, die sich nicht (ohne Weiteres) auf grundlegende Theoreme der Stochastik zurückführen lassen. Manche sehen im Frequentismus logische Brüche oder gewagte Sprünge:

A hypothesis that may be true is rejected because it has failed to predict observable results that have not occurred. This seems a remarkable procedure (Sir Harold Jeffreys, 1939, p. 316)”

Aber ich hab keine Zeit, Bayes zu lernen

Wenn Sie jetzt sagen, das sei alles schön und gut, aber der Tag ist kurz, und Sie haben kaum Zeit, neues Statistik-Zeugs zu lernen, dann ist das gut verständlich.

Die gute Nachricht ist: Die Grundlagen von Bayes sind in kurzer Zeit zu lernen. Dazu mehr an anderer Stelle.

Epilog

Frequentismus ist nicht doof.

Literaturvorschläge

Badenes-Ribera, L., Frias-Navarro, D., Iotti, B., Bonilla-Campos, A., & Longobardi, C. (2016). Misconceptions of the p-value among Chilean and Italian Academic Psychologists. Frontiers in Psychology, 7. Abgerufen von https://www.frontiersin.org/article/10.3389/fpsyg.2016.01247

Castro Sotos, A. E., Vanhoof, S., Van den Noortgate, W., & Onghena, P. (2007). Students’ misconceptions of statistical inference: A review of the empirical evidence from research on statistics education. Educational Research Review, 2(2), 98–113. doi:10.1016/j.edurev.2007.04.001

Dirnagl, U. (2019). The p value wars (again). European Journal of Nuclear Medicine and Molecular Imaging, 46(12), 2421–2423. doi:10.1007/s00259-019-04467-5

Goodman, S. (2008). A Dirty Dozen: Twelve P-Value Misconceptions. Seminars in Hematology, 45(3), 135–140. doi:10.1053/j.seminhematol.2008.04.003

Haller, H., & Kraus, S. (2002). Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research, 7(1), 1–20. https://www.metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf

Hoekstra, R., Morey, R. D., Rouder, J. N., & Wagenmakers, E.-J. (2014). Robust misinterpretation of confidence intervals. Psychonomic Bulletin & Review, 21(5), 1157–1164. doi:10.3758/s13423-013-0572-3

Ioannidis, J. P. A. (2019). What Have We (Not) Learnt from Millions of Scientific Papers with P Values? The American Statistician, 73(sup1), 20–25. doi:10.1080/00031305.2018.1447512

Lyu, Z., Peng, K., & Hu, C.-P. (2018). P-Value, Confidence Intervals, and Statistical Inference: A New Dataset of Misinterpretation. Frontiers in Psychology, 9. Abgerufen von https://www.frontiersin.org/article/10.3389/fpsyg.2018.00868

Reaburn, R. (2017). Statistics Instructors’ Beliefs and Misconceptions about „p“-Values. Mathematics Education Research Group of Australasia. Mathematics Education Research Group of Australasia. Abgerufen von https://eric.ed.gov/?id=ED589544

Significance Tests Die Hard: The Amazing Persistence of a Probabilistic Misconception—Ruma Falk, Charles W. Greenbaum, 1995. (o. J.). Abgerufen 27. Januar 2022, von https://journals.sagepub.com/doi/abs/10.1177/0959354395051004

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133. doi:10.1080/00031305.2016.1154108