Samenvatting
AI-systemen spelen een steeds grotere rol in ons dagelijks leven, en dat gaat niet altijd goed. In het nieuws lezen we vooral over deepfakes, ongelukken met zelfrijdende taxi’s en chatbots die opeens beginnen te schelden. Maar er zijn ook massa’s minder bekende voorvallen die laten zien hoe AI stilletjes op grote schaal schade kan aanrichten.
- Een gezichtsherkenningssysteem stuurde een onschuldige man twee weken de gevangenis in.
- Een algoritme draaide de geldkraan dicht voor 225.000 kansarme leerlingen in Nevada.
- Een bezorgrobot ramde een voetganger op een universiteitscampus en probeerde haar daarna te overrijden.
- In een zaak van de kinderbescherming verdraaide ChatGPT de feiten en liep een kwetsbaar kind gevaar.
- Een AI voor medische transcriptie verzon gewelddadige scenario’s vanuit het niets.
- Een AI-journalist beschuldigde een officier van justitie opeens van moord.
Deze AI-blunders vertellen allemaal hetzelfde verhaal: een te groot vertrouwen in geautomatiseerde systemen, een gebrek aan menselijk toezicht en de naïeve gedachte dat geavanceerde algoritmes onfeilbaar zijn. Inzicht in deze valkuilen helpt organisaties om AI op een verantwoorde manier te gebruiken, dure fouten te voorkomen en mensen te beschermen.
We zitten midden in de grootste uitrol van AI-systemen ooit. Algoritmen nemen beslissingen over het budget dat aan scholen wordt toegewezen, helpen de politie bij het opsporen van verdachten, zetten medische gesprekken om in tekst en loodsen robots door openbare ruimtes. Meestal werken deze systemen prima. Maar als dat niet zo is, kunnen de gevolgen ernstig zijn. Mensen kunnen hun baan kwijtraken, vals beschuldigd worden, gewond raken of de kansen van hun kinderen op een goede opleiding in één klap zien verdwijnen.
De zes voorvallen die we in dit artikel bespreken, zijn niet de sensationele AI-catastrofes die je vast wel in het nieuws hebt gezien (zoals de chatbot die met één blunder 100 miljard dollar aan marktwaarde wegvaagde). Het zijn missers op iets kleinere schaal die desalniettemin grote gevolgen hebben voor mensen. Elk voorval laat niet alleen zien hoe machine learning-systemen de mist in kunnen gaan, maar we leren er ook uit hoe we AI zorgvuldiger en bewuster kunnen inzetten om deze problemen te voorkomen.
Vals beschuldigd door AI
Een onschuldige man zat 14 dagen achter de tralies omdat AI hem onterecht aanwees als verdachte van een gewapende overval duizenden kilometers verderop.
Gezichtsherkenning is niet meer uit de wereld van de wetshandhaving weg te denken. Korrelige camerabeelden? Voor AI vormen ze geen obstakel bij het identificeren van verdachten. Rechercheonderzoek gaat een stuk sneller met AI, er hoeft minder handmatig werk verricht te worden en ‘objectieve identificatie’ zou gegarandeerd moeten zijn. Ook voor cold cases wordt gezichtsherkenning ingezet en dat brengt verdachten aan het licht die anders buiten beeld zouden zijn gebleven. De technologie blijkt trouwens niet alleen een uitkomst voor de politie. Grote winkelketens gebruiken soortgelijke systemen om bekende winkeldieven te traceren, terwijl luchthavens de veiligheidscontroles ermee verbeteren.
De markt voor gezichtsherkenningssystemen heeft een waarde van miljarden dollars per jaar, en dat komt door de nauwkeurigheid die in een gecontroleerde omgeving vaak boven de 95% ligt. Maar resultaten uit een gecontroleerde omgeving vertalen zich lang niet altijd feilloos naar de dagelijkse praktijk. Gezichtsherkenning blijkt toch regelmatig moeite te hebben met slechte belichting, afwijkende hoeken, onscherpe beelden en de diversiteit van het menselijk gezicht. Wat hier het meest zorgwekkend aan is, is dat veel organisaties AI-resultaten als hard bewijs zien, terwijl het in feite slechts kansberekeningen zijn die nauwkeurige controle vereisen.
Harvey Murphy Jr., een man uit Texas, belandde in een nachtmerrie toen een gezichtsherkenningssysteem van een winkelketen hem aanwees als een gewapende overvaller in Houston, terwijl hij nog nooit in die stad was geweest. De AI markeerde Murphy’s gezicht als een mogelijke match met bewakingsbeelden van de misdaad, en rechercheurs zagen dat als voldoende bewijs om een arrestatiebevel uit te vaardigen. Toen hij zijn rijbewijs ging verlengen, werd Murphy gearresteerd en bracht hij bijna twee weken in de gevangenis door, waar hij volhield dat hij onschuldig was. In die tijd werd hij verschillende keren mishandeld door medegevangenen, wat tot verwondingen leidde waar hij de rest van zijn leven last van zal blijven houden.
Pas nadat de aanklagers vaststelden dat hij op het moment van de overval helemaal niet in Houston was en zelfs niet in Texas, maar in Sacramento (Californië), werd hij vrijgelaten. Murphy eist nu 10 miljoen dollar voor het onrecht dat hem is aangedaan, maar geen enkel bedrag kan het trauma dat hij heeft opgelopen ongedaan maken. En dat simpelweg omdat mensen op het gebrekkige oordeel van een machine vertrouwden. Uit onderzoek van de Washington Post blijkt dat minstens acht Amerikanen ten onrechte zijn gearresteerd vanwege fouten in gezichtsherkenning, waarbij de politie vaak tegenstrijdige bewijzen negeerde, zoals waterdichte alibi’s of duidelijke fysieke verschillen tussen de echte daders en de gearresteerde personen.
Kansarme leerlingen
Een algoritme dat bedoeld was om kwetsbare leerlingen te vinden, besloot dat 225.000 kansarme leerlingen met redelijke cijfers geen hulp nodig hadden.
In de Verenigde Staten, waar veel kansarme jongeren nooit een highschooldiploma halen, zijn scholen afhankelijk van extra overheidsfinanciering. Vooral scholen in armere wijken hebben dit hard nodig. Het geld wordt gebruikt voor extra ondersteuning voor kinderen die matig presteren. Het toewijzen van extra fondsen gebeurt gewoonlijk met duidelijke criteria, zoals het inkomen van de ouders, om er zeker van te zijn dat kinderen uit gezinnen die het financieel zwaar hebben, extra ondersteuning krijgen. Een probleem hierbij is dat beslissingen bijna alleen maar worden genomen op basis van de financiële situatie van een leerling, terwijl er geen rekening gehouden wordt met andere dingen die van invloed kunnen zijn op de leerprestaties (zoals kinderen die een andere taal dan het Engels als moedertaal hebben). Het Department of Education in Nevada wilde dit systeem verbeteren met machine learning, om leerlingen te identificeren waarvan de kans op uitval het grootst is.
Het doel was nobel: de beperkte middelen zo effectief mogelijk inzetten voor de meest kwetsbare leerlingen. De staat ging een partnerschap aan met Infinite Campus, een bedrijf in onderwijstechnologie, voor de ontwikkeling van een voorspellend model. Dit model analyseerde 75 factoren, van cijfers en aanwezigheid tot gedragsproblemen, en berekende op basis daarvan een ‘diplomascore’ voor elke leerling. Alleen leerlingen die onder een bepaalde ondergrens scoorden, werden als ‘risicoleerling’ aangemerkt en kwamen in aanmerking voor extra financiering en ondersteuning.
Het toevertrouwen van deze taak aan AI liep helaas grandioos fout. Waar voorheen ongeveer 288.000 leerlingen (zo’n 60% van alle leerlingen in het basis- en middelbaar onderwijs in Nevada) in aanmerking kwamen voor ‘at-risk’-fondsen, voornamelijk op basis van het inkomen van de ouders, slonk dit aantal door het nieuwe AI-systeem tot slechts 63.000 leerlingen, ofwel maar 13% van alle leerlingen. Bijna driekwart van de leerlingen die extra ondersteuning kreeg, raakte die steun in één klap kwijt. Vooral wijken met lagere inkomens werden hard getroffen. Op één scholengemeenschap daalde het aantal risicoleerlingen zelfs wel heel dramatisch: van 1700 naar 45. De directie zag zich gedwongen om bijlesprogramma’s en andere ondersteuning te schrappen.
De strenge definitie van ‘risico’ die het algoritme hanteerde, zorgde ervoor dat de financiering voor veel leerlingen uit arme gezinnen werd stopgezet. Simpelweg omdat ze redelijke cijfers haalden en niet spijbelden. De AI concludeerde dat hun financiële uitdagingen niet ‘risicovol’ genoeg waren om de financiële steun te rechtvaardigen. Doordat het algoritme niet transparant was over hoe het tot die beslissingen kwam, hadden de betrokkenen geen inzicht in het systeem en konden ze geen bezwaar maken tegen de uitkomsten. Docenten en ouders waren woedend omdat het systeem op basis van algoritmes bepaalde welke leerlingen hulp nodig hadden, in plaats van op hun werkelijke behoeften. Door alle ophef moesten de autoriteiten in Nevada uiteindelijk hun aanpak herzien, maar dat gebeurde pas nadat duizenden leerlingen al de toegang tot cruciale hulpprogramma’s waren kwijtgeraakt.
Rammende robots
Nadat een bezorgrobot een medewerkster van de universiteit omver had gereden, reed hij achteruit en probeerde haar te overrijden terwijl ze hulpeloos op de grond lag.
Autonome bezorgrobots zijn een van de meest zichtbare toepassingen van AI. Deze machines, ter grootte van een koelbox, rijden over stoepen en banen zich een weg over campussen. Ze gebruiken camerabeelden en machine learning om obstakels te vermijden terwijl ze eten en pakketjes bezorgen. Bedrijven als Starship Technologies hebben tot nu toe duizenden van deze robots ingezet op universiteitscampussen en in stedelijke gebieden, voornamelijk in Californië en China. De robots hebben inmiddels al miljoenen bezorgingen uitgevoerd, met over het algemeen indrukwekkende resultaten. Ze bewegen langzaam, meestal op loopsnelheid, en zijn uitgerust met meerdere sensorsystemen om voetgangers, voertuigen en andere obstakels te detecteren en te ontwijken.
De technologie gebruikt realtime verwerking van visuele en ruimtelijke gegevens om te beslissen hoe de robot moet navigeren. Camera’s, LiDAR-sensoren en kaartsystemen werken samen om een driedimensionaal beeld van de omgeving van de robot te maken. Machine learning-algoritmen vertalen deze sensorgegevens naar veilige routes en zorgen dat de robot kan reageren op veranderende situaties, zoals mensen die in de buurt lopen of naderende fietsers of auto’s. Maar zoals alle AI-systemen kunnen ook bezorgrobots in de war raken door ongewone of onduidelijke situaties die niet in hun trainingsdata zitten.
In september 2024 ging een routinebezorging op de campus van de Arizona State University helemaal mis. Een Starship-robot botste met volle kracht tegen een campusmedewerkster aan. Opvallend genoeg staat in het politierapport dat de robot de vrouw wél had waargenomen en in eerste instantie zelfs gestopt was om haar te laten passeren. Maar toen ze doorliep, draaide de robot ineens om en sloeg haar tegen de grond. Ze liep letsel aan haar onderrug op en een snijwond van tien centimeter op haar arm, waarvoor medische zorg nodig was. Wat het voorval nóg verontrustender maakte, was dat de robot na de aanrijding wegreed, om vervolgens weer om te keren en op haar af te stevenen terwijl ze nog op de grond lag.
Op het eerste gezicht lijkt het er bij deze hit-and-run (of beter gezegd: hit-and-hit-some-more) op dat het AI-systeem niet doorhad dat het om een persoon ging die hulp nodig had, en haar in plaats daarvan zag als een soort obstakel waar het overheen kon rijden. Starship verdedigde de robot en zei dat deze op een aankomend voertuig reageerde. Niet een heel sterk argument, want zou het systeem geen onderscheid moeten kunnen maken tussen verschillende soorten gevaren? Toen het bedrijf de gewonde vrouw een troostpakket aanbood in de vorm van bonnen voor gratis robotbezorgingen, was de hilariteit groot. Dit misplaatste gebaar liet zien dat er nog heel wat werk aan de winkel is voor de autonome mobiliteitssector; ook op het gebied van klantenservice.
ChatGPT brengt een kind in gevaar
ChatGPT zette cruciaal bewijs tegen een vader die zijn kind misbruikte om in lovende woorden, en bracht het kind zo bijna in gevaar.
Het beschermen van kinderen is een van de belangrijkste taken van de overheid. Mensen die bij dit werk betrokken zijn, moeten moeilijke beslissingen nemen over complexe gezinssituaties en aanbevelingen doen die bepalen of kinderen bij hun ouders blijven of in een tehuis of pleeggezin terechtkomen. De werkdruk is vaak enorm, omdat maatschappelijk werkers tientallen zaken tegelijk beheren en strakke deadlines hebben voor rapporten die bij de rechtbank moeten worden ingediend. Geen wonder dat er veel interesse is voor AI-schrijfhulp: tools zoals ChatGPT kunnen helpen bij bijvoorbeeld het opstellen van rapporten, het samenvatten van aantekeningen en routinematige documentatietaken.
Het probleem is alleen dat grote taalmodellen zoals ChatGPT ontworpen zijn om tekst te genereren die geloofwaardig klinkt, niet om ervoor te zorgen dat de feiten kloppen. Ze raden wat het meest waarschijnlijke volgende woord is op basis van patronen die ze hebben geleerd uit trainingsdata. Dit betekent dat ze informatie kunnen produceren die heel overtuigend klinkt, maar totaal verzonnen is. Dus stel je eens voor wat er gebeurde toen een medewerker van de kinderbescherming in Victoria, Australië, besloot om ChatGPT te gebruiken voor het opstellen van een rapport voor de kinderrechter. De door AI gegenereerde tekst bevatte een ernstige feitelijke fout die doorslaggevend bewijs in de zaak compleet verdraaide. Het rapport omschreef de pop van het kind, die de vader naar verluidt voor verontrustende doeleinden had gebruikt, simpelweg als een voorbeeld van ‘passend speelgoed voor de leeftijd’ en een bewijs dat de vader zich inzette voor de ontwikkeling van het kind.
Dit was geen onschuldige typefout of een misinterpretatie. De pop was cruciaal bewijs in de zaak tegen de vader, en door de pop voor te stellen als een positieve opvoedkeuze, gooide de AI het hele verhaal om: van alarmerend naar ondersteunend. Als de fout niet tijdens de controle was opgemerkt, had de rechter het risico voor het kind wel eens ernstig kunnen onderschatten en de vader misschien zelfs meer omgangs- of voogdijrechten toegekend. Het voorval schond ook de privacyprotocollen, omdat de medewerker vertrouwelijke informatie uit een zaak in een extern AI-systeem had ingevoerd. De kinderbescherming in Victoria heeft inmiddels het gebruik van generatieve AI-tools voor al het casewerk verboden.
De gewelddadige hersenspinsels van AI
De medische transcriptie van OpenAI verzon gewelddadige fantasieën en voegde die toe aan patiëntendossiers.
De administratieve last in de zorg is gigantisch. Artsen besteden bijna twee keer zoveel tijd aan papierwerk als aan hun patiënten. AI-transcriptie is een manier om die werklast wat te verminderen. De technologie zet gesprekken met patiënten automatisch om in medische notities, zodat artsen meer tijd overhouden voor hun patiënten. Whisper van OpenAI, een van de krachtigste spraakherkenningsmodellen van dit moment, wordt al in 40 zorginstellingen, en door meer dan 30.000 medewerkers, gebruikt. Het model is heel goed in het nauwkeurig omzetten van spraak naar tekst, en is speciaal getraind op medische termen en complexe dialogen.
Whisper is een enorme sprong voorwaarts ten opzichte van traditionele transcriptiediensten. De software, die met deep learning getraind is op 680.000 uur aan audiomateriaal, produceert transcripties met een ongekende snelheid. Daarnaast kan het systeem meer dan het simpelweg matchen van geluiden aan woorden; het probeert de context te begrijpen en de intentie van de spreker te vangen. Maar uit een onderzoek van de Associated Press kwam iets zorgwekkends naar voren. Bij onduidelijke audio, ruis of spraak die op meerdere manieren te interpreteren is, markeert Whisper de tekst niet als onverstaanbaar. In plaats daarvan gaat het systeem hallucineren: het fabriceert compleet nieuwe zinnen die vaak complete onzin zijn. En in een medische setting kan dat natuurlijk levensgevaarlijk zijn.
In één gedocumenteerd geval werd een onschuldig gesprek over een jongen en een paraplu door de AI getranscribeerd als een gruwelijk gesprek over het doden van mensen met een mes. De AI had een gewelddadig scenario verzonnen dat in geen enkel opzicht overeenkwam met het oorspronkelijke gesprek. Een andere test bracht raciale vooringenomenheid aan het licht in de hallucinaties van het systeem: toen iemand ‘twee andere meisjes en één dame’ noemde, verzon Whisper erbij dat ‘ze zwart waren’.
Onderzoekers van de Universiteit van Michigan ontdekten dat Whisper in 80% van de onderzochte transcripten van openbare vergaderingen verzonnen zinnen toevoegde. Een andere ontwikkelaar meldde ‘hallucinaties’ in vrijwel alle van de 26.000 geteste audiobestanden. Dit is vooral verontrustend voor de gezondheidszorg, waar sommige systemen de originele audio na transcriptie wissen vanwege de privacy. Er is dan niet meer te controleren waar het gesprek echt over ging. Artsen die deze transcripties lezen kunnen echte uitspraken van patiënten dan niet meer onderscheiden van AI-hallucinaties, en dat kan leiden tot verkeerde diagnoses en behandelingen.
Een moordmysterie in de war
Een AI-journalist beschuldigde een officier van justitie van moord, op basis van een bericht op de sociale media van diens eigen kantoor.
De journalistieke sector heeft het zwaar. Redacties moeten noodgedwongen bezuinigen op personeel, maar ze willen natuurlijk verslag blijven doen van alle noemenswaardige gebeurtenissen in de regio. AI-gegenereerde content biedt een aantrekkelijke oplossing: algoritmes kunnen sociale media, politierapporten en officiële aankondigingen in de gaten houden en zo automatisch nieuwsberichten over lokale gebeurtenissen genereren. En dat voor een fractie van de gebruikelijke kosten. Grote taalmodellen die voor geautomatiseerde journalistiek worden gebruikt kampen echter met dezelfde tekortkomingen als andere AI-tekstgeneratoren. Ze zijn meester in het schrijven van teksten die vlot lopen, maar het ontbreekt ze aan een wezenlijk begrip van de context, causaliteit en feitelijke verbanden.
Als deze systemen officiële persberichten of sociale media-posts analyseren, proberen ze de betekenis te interpreteren aan de hand van beperkte tekstuele aanwijzingen. Vaak vullen ze hiaten op met statistisch waarschijnlijke, maar potentieel onjuiste informatie. In oktober 2024 werden lezers van de Hoodline San Francisco opgeschrikt door een kop waarin stond dat de openbaar aanklager van San Mateo County was aangeklaagd voor moord. Het AI-schrijfsysteem had een bericht op de sociale media van het Openbaar Ministerie over een moordzaak verwerkt, maar de informatie totaal verkeerd geïnterpreteerd. In plaats van te herkennen dat het bericht afkomstig was van de officier van justitie, en over iemands arrestatie ging, koppelde de AI de accountnaam San Mateo County DA aan de strafrechtelijke aanklacht. Zo ontstond een bizar verhaal waarin de aanklager zelf de misdadiger was.
Het systeem bedacht zelfs een naam voor de zogenaamd gearresteerde officier van justitie: John Thompson. Het combineerde tekstfragmenten op zo’n manier dat het een geloofwaardige tekst leek. De details over een voorlopige zitting en het vermeende slachtoffer maakten het verhaal compleet – een van a tot z gefabriceerd nieuwsbericht. Naast de naam van de auteur stond een klein AI-label, maar helaas had geen enkele redacteur de inhoud vóór publicatie gecontroleerd. Het nepbericht werd opgenomen in Google Nieuws en verscheen in de zoekresultaten van gebruikers die op zoek waren naar lokale informatie, waardoor de verkeerde informatie nog verder werd verspreid. Totdat Hoodline het uiteindelijk ontdekte en corrigeerde.
Conclusie
Deze zes voorvallen hebben een gemene deler: AI-systemen die falen op manieren die de makers niet zagen aankomen, met echte schade voor echte mensen als gevolg. Van onterechte arrestaties en verloren onderwijsondersteuning tot uit een kunstmatige duim gezogen medische dossiers en een valse beschuldiging van moord; we zien wat er gebeurt als klungelige AI-systemen in aanraking komen met de chaotische complexiteit van het menselijk bestaan. Het zal er onvermijdelijk toe leiden dat overheden strenger gaan optreden om dit soort fouten te voorkomen. Denk aan verplichte menselijke supervisie voor AI in cruciale domeinen, regels voor transparantie van algoritmische beslissingen en aansprakelijkheidswetten die bedrijven verantwoordelijk houden voor de fouten van hun AI.
Organisaties die vooruitkijken zitten niet stil in afwachting van nieuwe regels. Ze nemen nu al het voortouw met robuuste tests, duidelijke verantwoording en controles door mensen. De ware uitdaging is niet om AI foutloos te maken (dat is onmogelijk), maar om het zo veilig te krijgen dat we het belangrijke beslissingen durven toe te vertrouwen. We moeten dus accepteren dat fouten onvermijdelijk zijn en systemen creëren die de problemen tijdig signaleren, voordat ze rampzalige gevolgen hebben. De vraag voor elke bedrijfsleider is niet of AI zal falen, maar of je er klaar voor bent als dat gebeurt. Hoe weet je wanneer AI een fout maakt? En nog belangrijker: wat doe je dan?
Share via: