Kunstmatige intelligentie blogreeks: Pas op voor Simpson’s Paradox

989Views
65 Shares

Welkom bij het derde artikel in de blogreeks “Kunstmatige intelligentie”. Het tweede deel gaat over “Hoe maak je een model?”. Dit deel gaat over hoofdstuk 3: Pas op voor Simpson’s Paradox

3. PAS OP VOOR SIMPSON’S PARADOX

Simpson’s paradox is een fenomeen uit de statistiek, waarin je tot tegenovergestelde conclusies komt wanneer je naar aparte datasets kijkt dan wanneer je deze datasets combineert en naar het geheel kijkt. De paradox is met name bekend in de wereld van sociale en medische wetenschappen. Dit fenomeen is een bekende valkuil die er tot leidt dat verkeerde beslissingen worden gemaakt, die uiteindelijk een averechts effect hebben. Mede daarom is het belangrijk om beslissingen gebaseerd op data en kunstmatige intelligentie continu te beoordelen en te monitoren.

Discriminatie, of toch niet?

In Berkeley, een klein stadje op twintig minuten rijden ten oosten van San Francisco, staat UC Berkeley, de oudste campus van de Universiteit van Californië. Deze prestigieuze universiteit staat bekend als een uitstekende instelling en is de alma mater van al meer dan zeventig Nobelprijswinnaars. In 1973 ontdekte deze universiteit iets schrikbarends over haar toelatingen van dat jaar: van alle mannen die hadden gesolliciteerd om een PhD te mogen doen aan UC Berkeley was 44% aangenomen, maar van de vrouwen was dat slechts 35%. Dat leek wel verdacht veel op discriminatie op basis van geslacht!

UC Berkeley zou UC Berkeley niet zijn als deze situatie niet tot de bodem werd uitgezocht. Drie wetenschappers onder leiding van Peter Bickel, professor in de statistiek, doken de getallen in. In 1975 werden hun bevindingen gepubliceerd in het gerenommeerde wetenschappelijke tijdschrift Science. Ze bewezen dat de toelatingscijfers van de universiteit uit 1973 niet per se een voorbeeld waren van geslachtsdiscriminatie. Ze hadden een sprekend voorbeeld gevonden van een fenomeen dat bekend is geworden als ‘Simpson’s paradox’.

Op zoek naar een verklaring

In hun onderzoek bekeken Bickel en zijn collega’s een kleine 13.000 aanmeldingen voor de 101 departementen die UC Berkeley rijk is. In zo’n grote groep lijkt het a priori onmogelijk toevallig dat het verschil in toelating tussen mannen en vrouwen dusdanig groot was. De toelatingspercentages van 44% voor mannen en 35% voor vrouwen zouden in het beste geval door, wellicht onbewuste, vooroordelen komen, maar in het slechtste geval was er sprake van bewuste discriminatie. Als er zoiets aan de hand is op de universiteit, dan moet hier ook een schuldige voor aangewezen kunnen worden. Dus gingen de wetenschappers op zoek naar een zondebok. Binnen UC Berkeley solliciteren studenten bij de verschillende departementen. Een toelating of afwijzing wordt dus ook bepaald door de stafleden van een specifiek departement en niet door het bestuur van de universiteit zelf. Tijd om de departementen eens onder de loep te nemen. Daar werd het echter een lastig verhaal. Onder alle 101 departementen vonden de statistici slechts vier departementen die minder vrouwen hadden aangenomen dan je zou verwachten op basis van eerlijke, geslachtsonafhankelijke toelatingspercentages. Er waren daarentegen zes departementen die juist relatief minder mannen hadden aangenomen. In de data uitgesplitst naar de departementen was er dus juist geen bewijs voor discriminatie tegen vrouwen en leken mannen zelfs juist licht in het nadeel bij hun sollicitatie.

Hoe kan dit fenomeen nou ontstaan? Laten we eens kijken naar twee voorbeelden van departementen. Er was dat jaar een departement waar 933 mensen solliciteerden:
825 mannen en 108 vrouwen. Van de mannen werden er 512 aangenomen, ongeveer 62%. Van de vrouwen werden er 89 aangenomen. Dat is ruim 82%, een hoger percentage dan bij de mannen. Bij een ander departement solliciteerden 373 mannen en 341 vrouwen. Hier werden 21 mannen aangenomen, ongeveer 6% van de sollicitanten, en 23 vrouwen, zo’n 7% van de vrouwelijke sollicitanten. Het lijkt dus of deze departementen meer vrouwen aannemen dan mannen. Als we de getallen van de departementen echter bij elkaar voegen, krijgen we een ander beeld. Er zijn in totaal 1198 mannen, waarvan er 529 zijn aangenomen, ongeveer 44%. Er zijn slechts 449 vrouwen, maar daar zijn er ook maar 112 van aangenomen, een kleine 25%. De departementen samen ‘discrimineren’ tegen vrouwen, terwijl elk departement apart juist een lichte voorkeur voor vrouwen lijkt te hebben!

Eén van de oorzaken van de opvallende resultaten van dit onderzoek is dat vrouwen zich over het algemeen vaker aanmeldden voor departementen waar minder sollicitanten werden toegelaten. De mannen solliciteerden daarentegen overwegend meer bij de ‘makkelijkere’ departementen. In het toelatingsproces van UC Berkeley konden Bickel en zijn collega’s, mede hierdoor, niet concluderen dat er bewijs was voor geslachtsdiscriminatie. Ze merkten wel op dat het opvallend was hoe veel verschil er zat in de keuzes van mannen en vrouwen in welke departementen ze uitkozen om voor te solliciteren.

Een wijdverspreid ‘probleem’

Conclusies op basis van een grote dataset kunnen dus tegen worden gesproken door conclusies uit subgroepen binnen de dataset. Dit fenomeen staat bekend als Simpson’s paradox, vernoemd naar de Britse statisticus Edward Simpson, die in 1951 een artikel publiceerde waarin hij dit verschijnsel

uitlegde. Tegenwoordig zijn er talloze voorbeelden bekend van deze paradox, bijvoorbeeld in medicijnstudies, sportstatistieken en in onderzoek naar kwaliteit van zorg en onderwijs. Zo schreef de The New York Times in 2013 dat het gemiddelde inkomen in de Verenigde Staten tussen 2000 en 2013 met 1% was gestegen. De journalisten merkten echter ook op, dat tegelijkertijd de gemiddelde salarissen per onderwijsniveau juist gedaald waren. Of je nou universitair geschoolden bekeek, of mensen die de middelbare school niet hadden afgemaakt, elke groep was er gemiddeld op achteruit gegaan tussen 2000 en 2013. Er waren alleen in die periode meer mensen universitair gaan studeren, en relatief minder hooggeschoolde werklozen, waardoor het salaris over het totaal alsnog steeg. Het bleek weer een voorbeeld van Simpson’s paradox!

Als we niet voorzichtig met de data omgaan, kan een medicijnstudie concluderen dat een medicijn werkt, terwijl het in elk van de aparte doelgroepen juist niet werkt. Naïeve conclusies uit data kunnen leiden tot een overheid die miljoenen investeert in een project of wetgeving met een averechts effect. Met Simpson’s paradox in het achterhoofd weten data-experts dat ze statistiek moeten benaderen met een gezonde, kritische blik.

Geïnteresseerd in het boek?
Bestel het hier

Leave a Reply

Your email address will not be published.