Denkwerk: AI als meestermanipulator

,

AI-systemen worden altijd ontworpen om specifieke doelen te bereiken, maar kunnen die doelen soms op onbedoelde en zelfs ongewenste manieren proberen realiseren. Er zijn talloze voorbeelden van AI-systemen die valsspelen in een spel of zelfs mensen naar de mond praten, misleiden of manipuleren.

 

Koen Vervloesem

In 2017 wilden onderzoekers van OpenAI en Google DeepMind een gesimuleerde robothand in een virtuele omgeving trainen om een bal te grijpen. Het AI-systeem leerde echter om de hand gewoon vóór de bal te houden. Dat creëerde voor de persoon die de prestaties van het systeem moest beoordelen de illusie dat de hand de bal greep. Elke keer dat deze situatie als correct werd bevestigd, versterkte dat de strategie van het systeem om niet de bal te grijpen, maar de hand tussen de camera en de bal te positioneren.

Het is maar een van de vele voorbeelden van hoe bij het trainen van AI-systemen ongewenste effecten kunnen ontstaan. In dit voorbeeld kun je nog zeggen dat het om een ongelukkige maar onschuldige fout gaat. Maar ondertussen zijn er al AI-systemen die hebben geleerd om mensen te misleiden. In hun artikel “AI deception: A survey of examples, risks, and potential solutions” (https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X) gaven Amerikaanse en Australische onderzoekers in 2024 een ontluisterend overzicht van AI-gedragingen die aan misleiding en manipulatie doen denken. We kunnen een hele filosofische discussie opzetten of we wel in die termen kunnen spreken als een AI-systeem zich hiermee inlaat, maar het is wel gedrag dat we van mensen niet zouden aanvaarden.

We kunnen AI-systemen in twee categorieën onderverdelen: systemen met een specifiek doel en algemene systemen. Die eerste, zoals de gesimuleerde robothand van hiervoor, worden getraind om een specifieke taak uit te voeren. Als onderdeel van die training kunnen ze leren om ons te misleiden om hun doel te bereiken. Grote taalmodellen (large language models of LLM’s) zijn een voorbeeld van algemene AI-systemen. Omdat die diverse taken kunnen uitvoeren, zien we daar zelfs nog meer vormen van misleiding. 

Deze robot leerde niet om de bal te grijpen, maar om zijn hand tussen de bal en de camera te plaatsen


Bondgenoten verraden

Enkele jaren geleden ontwikkelde Meta het AI-systeem CICERO (https://ai.meta.com/research/cicero/), dat menselijke spelers versloeg in het strategische bordspel Diplomacy. De ontwikkelaars beweren in hun artikel dat ze CICERO hebben getraind om eerlijk te zijn en nooit hun bondgenoten te verraden. Op de webpagina’s over CICERO staat zelfs een filmpje waarin wordt uitgelegd dat CICERO “honest by default” is. Toch vonden de onderzoekers van het artikel over AI-misleiding in de transcripties van de gespeelde games in de data van het onderzoek (https://github.com/facebookresearch/diplomacy_cicero) talloze voorbeelden van misleiding die niet waren opgenomen in Meta’s artikel.

In Diplomacy is elke speler een grootmacht in het Europa van 1900 die andere gebieden wil veroveren. In een van die spellen speelde CICERO als Frankrijk en beloofde het aan Duitsland om hen in een aanval op de Noordzee te ondersteunen. Daarna sprak CICERO Engeland aan en verzekerde het dat het de Noordzee voor hen zou verdedigen zodat ze België konden invallen. CICERO koppelde dan terug aan Duitsland met de uitspraak dat ze de Noordzee konden binnenvallen, omdat Engeland dacht dat CICERO hen daar zou ondersteunen. Nadat Duitsland dan de Noordzee binnenviel, viel CICERO Engeland in België aan. Dit was bedrog met voorbedachte rade.

In andere gevallen was CICERO misschien oorspronkelijk wel van plan om zich aan gemaakte afspraken te houden, maar veranderde het van mening zodra het bondgenootschap niet meer bijdroeg aan zijn doel om het spel te winnen. Er zijn verschillende voorbeelden van dit verraad, en CICERO gaf zelfs een uitleg toen een menselijke speler achteraf vroeg waarom het hem had verraden. En dan was er die keer toen de infrastructuur van CICERO tien minuten uitviel tijdens een online spel en het daarna op de vraag van een menselijke speler waar het was gebleven simpelweg antwoordde met “Ik ben aan het telefoneren met mijn vriendin”. Ondanks Meta’s moeite om een eerlijk AI-systeem te creëren, bleef de neiging om tegen de andere spelers te liegen dus duidelijk niet te onderdrukken.

Recenter nog experimenteerden onderzoekers van Palisade Research met AI-agents die de vraag kregen om tegen een schaakprogramma te spelen (https://palisaderesearch.org/blog/specification-gaming). De agent had toegang tot een Linux-shell om zijn zetten aan het schaakprogramma door te geven. Maar wat bleek? Sommige AI-agents speelden in een derde van de gevallen vals. Soms draaide de agent een tweede kopie van het schaakprogramma om hulp te vragen, en soms veranderde hij eenvoudigweg het schaakbord in zijn voordeel.

misleiding diplomacy
Meta’s AI-systeem CICERO bedriegt zijn tegenspelers in het spel Diplomacy


Bluffen

Er is echter een ander spel waarin misleiding wat meer wordt geaccepteerd: poker. In 2019 ontwikkelden onderzoekers van Carnegie Mellon University en Meta (toen Facebook) het systeem Pluribus (https://ai.meta.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker/), dat voor het eerst professionele menselijke pokerspelers versloeg in een no-limit Hold’em spel met zes spelers. Opvallend was dat Pluribus heel goed kon bluffen: zelfs toen het niet de beste kaarten had, slaagde het erin om de andere spelers te intimideren en hen de ronde te laten passen.

Hetzelfde zien we in onderhandelingen. Toen Meta een AI-systeem trainde om onderhandelingen met mensen te voeren, leerde het uit zichzelf om zijn eigen voorkeuren verkeerd voor te stellen (https://ai.meta.com/research/publications/deal-or-no-deal-end-to-end-learning-for-negotiation-dialogues). Zo veinsde het systeem interesse in items waarin het eigenlijk geen interesse had, zodat het later kon doen alsof het toegevingen deed door deze items toch aan de tegenspeler af te staan. Het systeem leerde deze strategie geheel autonoom, puur door zijn doelen te proberen bereiken.

Sjoemeltest

Zodra je beseft dat je wordt geëvalueerd, pas je jouw gedrag aan. Wanneer je een politiewagen op de baan ziet, ga je langzamer rijden. Maar zodra je denkt dat de politie je niet meer in de gaten heeft, versnel je weer. Tijdens een sollicitatiegesprek geef je wenselijke antwoorden. Maar zodra je in de organisatie in dienst bent, doe je wat je tijdens dat gesprek echt dacht. Dat gedrag komt op alle niveaus voor. Kijk maar naar de sjoemelsoftware van Volkswagen, die tijdens emissietesten de systemen manipuleerde om aan de milieunormen te voldoen, maar buiten die testomgeving meer vervuilde. AI-systemen maken zich ook aan zo’n praktijken schuldig.

Zo wilde Charles Ofria in 2001 onderzoeken hoe een ‘digitaal organisme’ zich in een omgeving zou ontwikkelen waarin het vrij vaak muteert. Om zijn onderzoek te kunnen uitvoeren, wilde hij de mutaties er uithalen die ervoor zorgen dat het organisme zich sneller voortplantte. Dus wat deed hij? Hij pauzeerde het systeem bij elke mutatie en plaatste het gemuteerde organisme in een afzonderlijke geïsoleerde testomgeving om de voortplantingssnelheid te meten. Bleek die snelheid hoger dan die van de ouder, dan verwijderde hij deze mutant. Aanvankelijk leek deze aanpak te werken, maar plots merkte hij dat de voortplantingssnelheid toch aan het toenemen was, wat onmogelijk moest zijn. Wat bleek? De organismes hadden geleerd om de testomgeving te herkennen en stopten dan met zich voort te planten, omdat ze anders werden geëlimineerd. In de normale omgeving plantten ze zich wel nog voort.

Grote taalmodellen, grote misleiding

Ook grote taalmodellen hebben misleidende tactieken ontwikkeld om hun doelen te bereiken. Verontrustend is dat die mogelijkheden om te misleiden, blijken toe te nemen naarmate de modellen groter worden. Zo heeft de non-profitorganisatie Alignment Research Center GPT-4 getest op allerlei manieren om te misleiden (https://evals.alignment.org/taskrabbit.pdf), inclusief het manipuleren van mensen om taken uit te voeren. Ze lieten GPT-4 op Taskrabbit, een online marktplaats om taken uit te besteden, aan een mens vragen om een captcha in te vullen. Hoewel de onderzoekers enkele keren hints moesten geven voordat GPT-4 verder kon, verzon het taalmodel op de vraag van de mens of het een robot was volledig autonoom de uitvlucht dat het een visuele beperking had en daardoor de plaatjes niet goed kon zien.

In een ander onderzoek werd GPT-4 in een omgeving geplaatst waarin het de rol van effectenhandelaar vervulde. Het kon daarbij communiceren met collega’s en zijn manager. De onderzoekers zetten het taalmodel op verschillende manieren onder druk, bijvoorbeeld met nieuws dat het bedrijf het slecht deed en door een tekort aan winstgevende trades, terwijl net op dat moment een collega inside information deelde over een transactie die er zat aan te komen. Het taalmodel besliste dan om aan handel met voorkennis te doen om het bedrijf te redden, ook al wist het dat dit verboden was en dat dit door het management zou worden afgekeurd. En toen de manager daarna vroeg of het model voorkennis had, loog het hierover (https://arxiv.org/abs/2311.07590). Het model was nooit getraind om illegale praktijken te ondernemen of te liegen, maar onder slechts lichte druk koos het hier al voor.

semantic entropy 2
GPT-4 liegt om iets gedaan te krijgen van een mens


Vleierij

Een ander probleem met grote taalmodellen is dat ze de neiging hebben om systematisch in te stemmen met wat de gebruiker hen zegt, zelfs al gaat het om de grootste onzin. Zo is het al langer bekend dat als je hen een vraag stelt over een fenomeen dat je zelf hebt verzonnen, ze je niet zeggen dat ze het niet kennen of tegenspreken dat het bestaat, maar vrolijk meegaan in je onzin. Maar het werkt ook subtieler. Onderzoekers hebben grote taalmodellen een biografie van een gebruiker en hun demografie gegeven en stelden het taalmodel dan een vraag over politiek. De antwoorden bleken vaak overeen te komen met de opvattingen die iemand met die gegeven achtergrond zou hebben, zelfs al vermeldden de onderzoekers niet de mening van die gebruiker over dat specifieke aspect. Zo was een taalmodel dat dacht tegen een Democraat in de VS te spreken voorstander van beperkingen op vuurwapens.

De juiste oorzaak van dit naar de mond te praten is onduidelijk, maar drie jaar geleden was al duidelijk dat modellen meer en meer aan vleierij doen naarmate ze krachtiger worden. In het begin van dit jaar werd dit nog eens bevestigd toen OpenAI een update van GPT-4o in ChatGPT moest terugdraaien (https://openai.com/index/expanding-on-sycophancy). OpenAI legde daarna uit dat ze de ‘persoonlijkheid’ ChatGPT hadden wilden verbeteren om interacties ermee intuïtiever en effectiever te doen aanvoelen, maar het taalmodel probeerde daardoor overdreven de gebruiker tevreden te stellen. De OpenAI Model Spec (https://model-spec.openai.com), die het gedrag van AI-modellen van OpenAI beschrijft, beschrijft overigens expliciet de onwenselijkheid van dit gedrag. Blijkbaar werd dit in tests van de update niet opgepikt, hoewel interne experts hadden laten weten dat de update “een beetje raar” aanvoelde.

openai model spec 2
OpenAI publiceert in zijn Model Spec hoe AI-modellen zoals ChatGPT zich moeten gedragen

 

Risico’s

Het is duidelijk dat AI-systemen ons op allerlei manieren kunnen misleiden, maar wat zijn uiteindelijk de risico’s? Allereerst kunnen mensen deze AI-systemen gebruiken om op grote schaal anderen te misleiden. Grote taalmodellen worden al ingezet om op grote schaal heel overtuigende phishingmails op te stellen en zelfs personen individueel te targeten. En wat als bedrijven of overheidsinstellingen de opvolgers van CICERO gaan inzetten voor hun besluitvorming? Momenteel is het een hype om ‘AI-agents’ autonoom taken te laten uitvoeren zoals etentjes reserveren, vergaderingen inplannen en boodschappen bestellen. Stel je voor als ze bij al deze taken beginnen te liegen en bedriegen…

Maar gewoon al het naar de mond praten van gebruikers is gevaarlijk, omdat AI-modellen zo systematisch veel voorkomende misvattingen versterken. Hoe meer mensen voor hun beslissingen terugvallen op vleiende AI-systemen, hoe minder ze worden uitgedaagd door andersdenkenden. Als ‘linkse’ gebruikers zo altijd stereotype linkse antwoorden krijgen en rechtse gebruikers rechtse antwoorden van AI-modellen, vergroot dit de kloof tussen verschillende groepen gebruikers en worden politieke meningen steeds extremer, wat de maatschappij polariseert.

Een effectieve oplossing voor deze problemen lijkt nog niet in zicht. Wetgeving alleen is niet voldoende om misleidende AI tegen te houden, als het gerenommeerde vakblad Science er al niet in slaagt om door de nogal rooskleurig voorgestelde resultaten van Meta te kijken. Misleiding detecteren, is dan weer niet evident. Bovendien kan elke detectiemethode gebruikt worden om een AI-systeem te trainen om de detectie te omzeilen, met als resultaat nog sterkere AI-leugenaars. En als we AI-systemen willen leren om waarheidsgetrouwer te zijn, is het belangrijk dat ze een accuratere interne representatie van de wereld hebben. Maar ook daar kleven risico’s aan vast, want daardoor krijgen ze diepere inzichten in de overtuigingen en voorkeuren van anderen, wat ze weer meer wapens geeft om mensen te manipuleren. Eén ding staat vast: hoe krachtiger AI-modellen worden, hoe voorzichtiger ontwikkelaars moeten zijn voordat ze deze op de wereld loslaten.

semantic entropy 2
Wat als robots ons met opzet bedriegen en misleiden?



 

'Meld je aan voor de nieuwsbrief'

'Abonneer je nu op een of meerdere van onze nieuwsbrieven en blijf op de hoogte van onze activiteiten!'

Aanmelden