Simpsons paradoks

Simpsons paradoks kan forstås som et fænomen, hvor der er en korrelation mellem to variable i en bestemt retning, evt. en positiv korrelation, men som er produktet af korrelationer i en modsat retning inden for bestemte grupper.

Figur 1 nedenfor viser dette illustreret med karakterer fra The Simpsons. Bemærk dog, at Simpsons paradoks er opkaldt efter statistikeren Edward H. Simpson og ikke TV-serien The Simpsons. I figuren ser vi, at der er en negativ korrelation for hver af figurerne i serien, men der er en positiv korrelation, hvis vi ikke tager højde for, hvilke karakterer, vi kigger på (den røde linje).

Figur 1: Simpsons paradoks illustreret med The Simpsons

Dette er i udgangspunktet, hvad du bør vide om Simpsons paradoks. Figur 2, lavet af Peter Dahlgren på baggrund af kode af Rafael Irizarry, viser dette som en visualisering. Her kan det ses, at der er en negativ korrelation, hvis man kigger på alle observationer, men at denne er produktet af en række positive korrelationer.

Figur 2: Simpsons paradoks illustreret, animation

Til trods for at dette er hvad der normalt forstås med Simpsons paradoks, er der en mere generel pointe med paradokset. Hernán et al. (2011) beskriver hvordan paradokset ophører, når man tager domæne-specifik viden i betragtning. Statistiske regler er dermed ikke tilstrækkelige til at drage kausale konklusioner da kausale strukturer skal analyseres forskelligt. Simpsons paradoks er et godt eksempel til at illustrere dette, da det viser, at forskellige kausale modeller kan føre til identiske resultater.

For mere information omkring kausalitet og Simpsons paradoks, se Pearl (2014). For en mere udførlig og pædagogisk introduktion til paradokset, se Kievit et al. (2013).

Referencer

Hernán, M. A., D. Clayton og N. Keiding. 2011. The Simpson’s paradox unraveled. International Journal of Epidemiology 40(3): 780-785.

Kievit, R. A., W. E. Frankenhuis, L. J. Waldorp og D. Borsboom. 2013. Simpson’s paradox in psychological science: a practical guide. Frontiers in Psychology 4: 513.

Pearl, J. 2014. Comment: Understanding Simpson’s Paradox. The American Statistician 68(1): 8-13.

Skrevet af: Erik Gahner Larsen