Welkom bij het vierde artikel in de blogreeks “Kunstmatige intelligentie”. Het derde deel gaat over “Pas op voor Simpson’s paradox”. Dit deel wordt ingegaan op de centrale vraag in hoofdstuk 4: Is fouten maken menselijk?

4. IS FOUTEN MAKEN MENSELIJK?

Niet alleen mensen maken fouten, ook kunstmatige intelligentie zit er wel eens naast. Het inzichtelijk maken van de fouten die kunstmatige intelligentie maakt, en het omgaan met deze fouten, zijn belangrijke onderdelen van het gebruik en de ontwikkeling van kunstmatige intelligentie. De confusion matrix helpt om fouten van systemen die automatisch classificatieproblemen oplossen inzichtelijk te maken. Dit geeft de menselijke gebruiker de kans om te bepalen hoe de resultaten van systemen goed kunnen worden geïnterpreteerd en gebruikt.

“Fouten maken is menselijk” is een veelgehoorde uitspraak. Hoewel we natuurlijk allemaal proberen zo min mogelijk fouten te maken, accepteren we in onze samenleving dat mensen nu eenmaal niet feilloos zijn. In de moderne maatschappij worden steeds meer beslissingen genomen met behulp van, of zelfs helemaal door, machines en algoritmen. Als fouten maken menselijk is, kunnen we er dan van uitgaan dat computersystemen geen fouten maken?

Ook machines maken fouten

We zullen maar met de deur in huis vallen: deze conclusie gaat niet op. Zelfs de slimste computergestuurde systemen kunnen fouten maken. Op tal van verschillende manieren zelfs. Dit zien we ook gebeuren in ons dagelijks leven. Soms zijn deze fouten relatief onschuldig, zoals een aanbieding voor biefstuk, voorgeschoteld door een marketingalgoritme, terwijl je net vegetarisch eet. In hoofdstuk 29 over ‘eerlijke’ algoritmen kun je echter ook lezen over fouten van algoritmen die werden gebruikt om te voorspellen of iemand een succesvolle sollicitant zou zijn. Deze algoritmen sloten regelmatig onterecht mensen uit van sollicitatie, nog vóór ze ooit een menselijke interviewer hadden gesproken! Er zijn zelfs meerdere verhalen van zelfrijzende auto’s, van bijvoorbeeld Uber en Tesla, die de fout in gingen met soms dodelijke ongelukken tot gevolg. Ook computergestuurde systemen, uitgerust met de meest geavanceerde tools uit de kunstmatige intelligentie, kunnen dus zeer ernstige fouten maken.

Dat machines fouten kunnen maken zou ons misschien niet moeten verbazen. Met kunstmatige intelligentie proberen we een complexe wereld te vatten in een ‘simpel’ wiskundig model. Hoe verfijnd dit model ook is, uiteindelijk omvat het slechts een stukje van de werkelijkheid. Er zijn vrijwel altijd situaties denkbaar die niet te voorzien zijn door het model en zijn makers, waardoor fouten altijd op de loer blijven liggen. De vraag is dus niet zozeer óf systemen met kunstmatige intelligentie fouten maken. Veel interessantere vragen zijn hoe we hier mee om kunnen gaan, hoe we kunnen zorgen dat de systemen die we gebruiken zo min mogelijk fouten maken en hoe de foutgevoeligheid van een systeem zich verhoudt tot de ‘foutgevoeligheid’ van een menselijke beslissing. “Fouten maken is menselijk” zeggen we immers niet voor niets.

Een fabrieksvoorbeeld

In veel fabrieken wordt dankbaar gebruikt van kunstmatige intelligentie. Het is bijvoorbeeld belangrijk dat de fabriek producten aflevert die aan al hun kwaliteitseisen voldoen. Dat betekent dat alle producten die van de lopende band af rollen gecontroleerd moeten worden. Dit is typisch een taak waar een computersysteem kan helpen. Laten we als voorbeeld eens donuts nemen. Door te kijken naar zaken als vorm, kleur, grootte en gewicht van een donut kan een computersysteem met kunstmatige intelligentie automatisch inschatten of het product goed van de band komt. Stel nu eens voor dat we een systeem hebben ontwikkeld dat in 99% van de gevallen juist herkent of een donut goed van de band is gekomen of een defect heeft. Vinden we dit dan een goed systeem?

AI

In eerste instantie zou je kunnen denken dat 99% juiste inschattingen een goede score is. Je maakt dan immers voor maar één op de honderd donuts een fout. Wat nu als we je vertellen dat ditzelfde systeem nooit alarm slaat voor een donut. Oftewel: elke donut die van de band rolt, wordt door het systeem aangemerkt als goede donut. Hoe kijk je er dan tegenaan?

Normaliter verwacht je van een lopende band in een fabriek dat die in veel meer dan 99% van de gevallen een foutloze donut oplevert. Als we een systeem opleveren dat voor elk van de donuts zegt dat de donut oké is, kan dit dus zomaar in 99% of meer van de gevallen de juiste beslissing zijn. Sterker nog, bij veel lopende banden zal je nog een hoger percentage juist hebben!

Dit voorbeeld toont aan dat het lang niet altijd makkelijk is om te bepalen hoe goed een systeem (of mens) een taak uitvoert. Het simpele criterium hoe vaak een juist antwoord wordt gegeven, blijkt helemaal niet altijd een slim criterium. Laten we ons simpele systeem eens vergelijken met een iets slimmer systeem.

 

De confusion matrix

In figuur 6 zijn de resultaten van twee verschillende systemen te zien die donuts controleren. Systeem 1 is het simpele systeem dat we eerder gebruikten. Systeem 2 is een alternatief. Voor iedere donut houden we rekening met twee kenmerken. De donut is van goede kwaliteit of niet, dat is de werkelijkheid. Daarnaast stellen de systemen een diagnose: ze schatten in of de donut in kwestie aan de kwaliteitseisen voldoen. Zo kunnen we de donuts die van de lopende band rollen in vier groepen indelen, die in de figuur te zien zijn. De blauw gearceerde vakken zijn de vakken waarin het systeem de juiste diagnose stelt: de donut is van slechte kwaliteiten het systeem ziet dat ook, of de donut is zowel in werkelijkheid als volgens het voorspelsysteem in orde.

AI voorspel systemen

Het eerste systeem stelt in 99 van de 100 gevallen de juiste diagnose. Het tweede systeem slechts in 98 (97+1) van de gevallen. Het eerste systeem heeft daarmee een hogere nauwkeurigheid dan het tweede systeem, maar dat maakt het in dit geval geen beter systeem. Het tweede systeem geeft namelijk een stuk bruikbaardere uitkomsten. Systeem 2 weet immers zeker de donuts eruit te pikken die niet aan de kwaliteitseisen voldoen. Het eerste systeem stelt dat helemaal nooit vast en is dus als systeem om kwaliteit te bewaken volstrekt nutteloos.

In deze situatie is het veel relevanter om te kijken naar het aantal defecte gevallen dat het systeem goed kan diagnosticeren. In het eerste systeem is dit 0%, in het tweede systeem 100%. Dit wordt ook wel het ‘onderscheidend vermogen’ van een model genoemd. Op basis van de tabellen in de figuur kun je nog veel meer interessante statistieken verzamelen, die iets zeggen over hoe goed je systeem werkt. Zo’n tabel wordt in het vakgebied een ‘confusion matrix’ genoemd en is de basis voor allerlei criteria om de werking van een voorspelsysteem te beoordelen. In veel situaties blijkt dat er niet één beste criterium is om tot een beoordeling te komen. Pas door naar een combinatie van factoren te kijken kun je de systemen eerlijk beoordelen.

Het is dus niet de vraag óf systemen met kunstmatige intelligentie fouten maken, maar wát voor fouten dat zijn en hoe we daarmee omgaan. De confusion matrix van een voorspelmodel geeft een schat aan informatie over de werking van een bepaald systeem. We kunnen de confusion matrix gebruiken om te bepalen welk systeem betrouwbaarder is, maar ook om te identificeren hoe we het systeem nog kunnen verbeteren en de resultaten moeten interpreteren. Bij systeem 2 zien we bijvoorbeeld dat in 2 van de 3 gevallen waarin de diagnose ‘fout’ gesteld wordt, deze donuts eigenlijk prima zijn. Bij een constatering van ‘fout’ van systeem 2 is de kans dat de donut dus daadwerkelijk slecht is ‘slechts’ 33%. Zo’n diagnose is dus eerder een aanleiding om deze donut nog eens goed te bekijken, dan een definitieve uitslag. In veel situaties in het ziekenhuis is dit precies de reden dat er na één positieve test vaak nog geen harde conclusies worden getrokken. Pas als er meerdere keren positief getest wordt, kun je ‘zeker’ zijn dat je een bepaalde aandoening ook daadwerkelijk hebt. Een arts stelt gewoonlijk dus pas een positieve diagnose als je meerdere keren getest bent, vaak ook nog met verschillende testmethodes.

Omgaan met fouten is menselijk

Fouten maken is zeker niet alleen menselijk. Ook in het gebruik van kunstmatige intelligentie moeten we er rekening mee houden dat deze systemen niet feilloos zijn.
Er zijn tal van manieren om de kwaliteit van kunstmatige intelligentie te beoordelen. Alleen al uit de confusion matrix zoals we die in dit verhaal gezien hebben kun je meer dan een dozijn manieren halen om je model te beoordelen. Kijk maar eens op de Wikipediapagina van de ‘confusion matrix’. De confusion matrix is nog maar het topje van de ijsberg: er zijn tientallen, misschien wel honderden manieren om voorspelsystemen te beoordelen.

De briljante statisticus George Box zei ooit: “Alle modellen zijn fout, maar sommige zijn nuttig”. Door te kijken naar het nut van het model, en de eisen aan het systeem daarop af te stellen, kun je pas beslissen welk systeem het best is. Op welke manier verbetert het systeem de besluitvorming? En als je dit vergelijkt met een menselijke diagnose, doet het systeem dan beter werk?

In een wereld waarin kunstmatige intelligentie een steeds grotere rol speelt, is het juist beoordelen van de beperkingen even belangrijk als het zien van de kansen. Pas als je de juiste vragen weet te stellen, kun je de juiste afwegingen en beslissingen maken. Door op die manier met kunstmatige intelligentie om te gaan, kan het pas echt een toegevoegde waarde aan onze maatschappij zijn. Dan helpt het ons om menselijke fouten te voorkomen én beslissingsprocessen te verbeteren.

ai confusion matrix