Wildgroei aan hulpmiddelen

De opkomst van generatieve AI niet meer te negeren. Organisaties gebruiken ChatGPT of andere generatieve AI op veel verschillende manieren, vaak als zoekmachine ( lees hier waarom dat een slecht idee is), om samenvattingen te maken, voor juridische analyses (niet altijd even succesvol), maar bijvoorbeeld ook om te brainstormen. 

Tegelijkertijd zien we dat in de nasleep van de toeslagenaffaire, er een wildgroei is ontstaan aan hulpmiddelen voor verantwoorde ontwikkeling en inzet van data, algoritmes en AI. Om een paar bekende te noemen, in willekeurige volgorde:

Niet al deze middelen zijn met elkaar uitwisselbaar en ze hebben ieder afzonderlijk hun eigen toegevoegde waarde, waar een en ander zeker kan overlappen. Door deze grote verscheidenheid blijkt het in de praktijk lastig om overzicht te houden: wanneer gebruik je welke hulpmiddel en waarom? Bovendien zijn een aantal van de hulpmiddelen dermate complex dat ze in de praktijk vaak stranden. Je hebt veel verschillende expertise gebieden nodig en informatie vanuit verschillende stadia van het ontwikkelproces. Om zoiets succesvol te laten verlopen is een volwassen vorm van algoritme governance nodig, wat in veel organisaties nog in de kinderschoenen staat. Ik zie hierdoor in de praktijk veel onafgemaakte IAMA’s of ethische sessies zonder adequate opvolging.

Nu is generatieve AI juist heel goed in het filteren van vele verschillende bronnen. Dus niet geheel verrassend ontstond in een gesprek over wildgroei aan hulpmiddelen het idee om generatieve AI te gebruiken voor ethische reflectie, waarbij het generatieve systeem gevoed kan worden met al die tools en hulpmiddelen die tot onze beschikking staan.

 

Onderbuikgevoel

Rondvraag in mijn omgeving bevestigde mijn eigen onderbuikgevoel, de overheersende reactie was: ‘dat klinkt als een heel slecht idee”. Maar waarom eigenlijk? Ik kon heel veel risico’s en nadelen bedenken, maar ook heel veel voordelen en mitigerende maatregelen, mits je goed afkadert waar je het wel en niet voor inzet. Ook sprak ik verschillende onderzoekers van de Universiteit Twente en TU Eindhoven over dit onderwerp, ook zij toonde terughoudenheid, maar ook interesse. Zo sprak ik met Philip Nickel die zelf onderzoek doet en begeleidt hierover. Hij schreef een interessant artikel waarin hij, na het uiteenzetten van de vele gevaren en beperkingen, het volgende schrijft:

“However, the existence of pitfalls and limitations does not imply that we should not shape these technologies to fit our purposes.”

Met andere woorden, laten we het kind niet met het badwater weggooien.

Vervolgens heb ik het idee voorgelegd aan een opleidingsgroep van Filosofie in Actie. In een sessie begeleid door Piek Knijff hebben we vooraf de casus geprobeerd nog wat scherper te krijgen. Voor de sessie gingen we er vanuit dat het model voor een specifieke casus relevante (filosofische) vragen gaat stellen, informatie verzamelt en advies geeft over maatregelen die kunnen helpen bij verantwoorde inzet van data, algoritmes en AI.

Net als in de gesprekken die ik eerder over het onderwerp voerde, deelden de meeste deelnemers het unheimische onderbuikgevoel. Daarnaast werd al vrij snel de terechte vraag gesteld:  is het uberhaupt nodig om generatieve AI in te zetten? Want wat is eigenlijk het probleem dat je wil oplossen? Veel onafgemaakte IAMA’s? Maak het verplicht of zit mensen meer achter de broek aan. Te veel tools? Kies er twee en ga daarmee aan de slag. Te weinig geschikte mensen die een ethische sessie kunnen faciliteren? Huur ze in of train bestaande medewerkers. Kortom, is er wel een probleem dat met AI opgelost moet worden?

Een andere overweging die aan bod kwam is of het proces van ethische reflectie niet een doel op zich is. Samen met diverse expertises in een kamer reflecteren op een casus zorgt ook voor bredere bewustwording van risico’s en kansen en beter begrip van de casuistiek. Ook de betrouwbaarheid van het systeem kwam aan bod. Wie bepaalt met welke informatie dat model getraint wordt? Hoe waarborg je dat er geen belangrijke aspecten over het hoofd gezien worden? Wie is verantwoordelijk als het model iest ovr het hoofd ziet? Kunnen mensen met slim prompten bewust lastige vragen omzeilen om een project door te drukken? En zo kwamen er nog vele andere risico's, overdenkingen, maar ook kansen aan bod. Nog een korte samenvatting uit het verslag van Filosofie in Actie:

“De inzet van een taalmodel voor ethische reflectie roept vragen op over verantwoordelijkheid en het mogelijk ontnemen van verantwoordelijkheid. Ook zijn er zorgen over kwaliteit van de adviezen door het taalmodel omdat het niet alleen gaat over de uitkomst van de ethische reflectie, maar het menselijke denkwerk dat daaraan voorafgaat.”

Wat vindt ChatGPT er zelf eigenlijk van?

Ik was ook wel benieuwd of ChatGPT het zelf een goed idee vindt om generatieve AI in te zetten voor ethische reflectie. De analyse van ChatGPT viel me niet tegen. Zo identificeerde het als een van de voordelen dat het breed beschikbaar stellen van een dergelijk model in een organisatie, het laagdrempeliger kan maken voor medewerkers om een casus op het gebied van ethiek te verkennen. Als een van de nadelen benoemt het dat een LLM geen normatief oordeel kan geven omdat het in weze slechts een statistisch model is. Ook weegt het geen context gevoelige elementen mee, wat in de praktijk een grote rol kan spelen.

Uiteindelijk geeft ChatGPT een aantal aandachtspunten mee voor verantwoord gebruik:

  1. Gebruik ChatGPT als ondersteunend hulpmiddel, niet als besluitvormer.
  2. Zet menselijke reflectie-commissies centraal; AI als ‘ethische assistent’.
  3. Implementeer waarborgen voor transparantie en explainability van gegenereerde adviezen.
  4. Beperk gebruik tot niet-gevoelige data, of werk met lokale/private LLM-instances.
  5. Koppel uitkomsten altijd aan menselijke ethische toetsing (checks & balances).

Op zich zit het advies van ChatGPT goed in elkaar en benoemt het belangrijke risico's en adviezen die ook in mijn eerdere gesprekken aan bod kwamen. Het belangrijkste verschil is dat ChatGPT de vraag zelf niet ter discussie stelt, wat bij de Filosofie in Actie groep wel (terecht) gebeurde. Wellicht zou aanscherping van de prompt daar nog wat in kunnen doen, maar dan ben je dus afhankelijk van de qualiteit van je prompts of de juiste vragen gesteld worden. Ga je dan investeren in een cursus 'beter ethisch prompten' of is het dan logischer om een filosoof of andere kritische denker uit te nodigen om het gesprek in de organisatie te begeleiden. 

De volledige prompt + antwoord hier te vinden.

ChatGPT en een fictieve casus

Nu we toch bezig zijn met Chat GPT leek het me ook interssant om een fictieve casus voor te leggen. Momenteel doe ik een opdacht voor de Marechaussee en ik kreeg een tijdje terug een demo van Spot de robothond. Mooie technologie waarmee onveilige situaties verkend kunnen worden zonder gevaar voor mensenlevens. Maar wat als je de robothond uit zou breiden met gezichtsherkenning (voor de duidelijkheid, dit is een hypothetische vraag)? Ik vroeg ChatGPT of dat een goed idee zou zijn en kreeg een uitgebreid antwoord met aan het einde de volgende samenvatting:

“Het toevoegen van gezichtsherkenning aan een robothond voor handhavingstaken brengt grote ethische en juridische risico’s met zich mee. De belangen van veiligheid en effectiviteit botsen hier met privacy, proportionaliteit, en mensenrechten. Dit vraagt om zeer zorgvuldige afwegingenheldere kaders, en strikte waarborgen.”

De volledige prompt + casus is hier te vinden.

Ik heb zelf meerdere ethiek sessies begeleid en het kan soms een uitdaging zijn om de verschillende perspectieven en risico’s goed boven tafel te krijgen. Dan gaat het veel over efficientie of effectiviteit en minder over privacy, bias of impact op kwetsbare groepen. Niet iedere gespreksleider zal in staat zijn om dit goed te begeleiden en de belangrijke aspecten van de casus boven tafel te krijgen. Opvallend vind ik dan ook dat in het antwoord van ChatGPT, een model dat niet specifiek getraind is op ethiek, veel belangrijke aspecten aankaart zoals: privacy, function creep, fouten en bias, normalisatie van surveillance en potentieel misbruik van gegevens. Ik ben dus heel benieuwd wat een model zou kunnen dat gerichter is getraind. Ik kan me goed voorstellen dat dit hele goede input kan zijn voor een ethiek sessie, bijvoorbeeld door betrokkenen vooraf met behulp van generatieve AI de casus te laten verkennen of dit als begeleider van een sessie mee te nemen.

 

Wie durft?

Ondanks alle genoemde risico's, nadelen, onderbuikgevoelens en bedenkingen, denk ik dat er zeker situaties zijn waar een generatief AI model een rol kan spelen. Bijvoorbeeld als voorverkenning van een ethieksessie, het voorinvullen van een IAMA of om de relevante aspecten van alle verschillende tools te filteren. Ik denk dat een dergelijke model ook kan helpen om ethiek breder toegankelijker te maken door mensen zelf te laten experimenteren met een dergelijk model. 

Het liefst zou ik samen met een onderzoeksinstelling (die lijntjes zijn al gelegd) en (overheids)organisaties (wie durft?) een aantal gespecificeerde scenario's in de praktijk gaan onderzoeken aan de hand van een model dat specifiek getraind is hierop. Daarbij staat de conclusie vooraf natuurlijk niet vast. Het kan toch uiteindelijk een slecht idee blijken, maar ik vermoed dat dit van de toepassing afhangt. Kortom, laat het vooral weten als je interesse hebt!

 

Ter vermaak: Infographic van ChatGPT

ChatGPT vroeg of ik een infographic wilde met de conclusies van de casus over de robothond. Uiteraard heb ik op ja geklikt. Rechts het resultaat. Het zal vast niet lang meer duren voordat deze infographics er ook een stuk beter uit gaan zien.

 

Robot hond gegenereerd door ChatGPT