Mijn programmeerervaringen met Claude AI

Fabulatie. Dit was ik al eerder tegen gekomen bij de constructie van het basisprogramma. Toch was deze nieuwe ervaring onverwacht. Het bleek bij het debuggen dat Claude soms volkomen onjuiste uitgangspunten bedacht en daar dan razendsnel verder op redeneerde. Die onjuiste uitgangspunten kwamen onder meer door het niet zorgvuldig lezen van screenshots, waardoor de fout niet goed geanalyseerd werd. Een andere basis was de onjuiste interpretatie van regels. In dit spel zijn er twee sorteringsregels, een voor de basisstapels (per kaartsoort oplopende rangorde) en een ander voor de tableaus (afwisselende kleur en aflopende rangorde). Claude kan nogal hardnekkig een verkeerde regel hanteren. Wat ook een rol speelde, en hier moet ik eerlijk zijn: gebrekkige of zelfs onjuiste informatie mijnerzijds. Dit laatste probleem speelde zeker ook een rol, maar de eerste twee kwamen veel vaker en hardnekkiger voor.

Vergeetachtigheid. Dit was het meest onverwacht. Claude kan een tijd helemaal zoals bedoeld opereren en dan opeens iets vergeten zijn. Zo had ik Claude op een gegeven ogenblik geïnstrueerd dat hij alleen Python-code mocht wijzigen na instemming mijnerzijds. Dat gaat dan een tijdje goed, maar op een gegeven ogenblik ging hij toch weer zonder instemming code produceren. En dat wil je absoluut niet als de uitgangspunten verkeerd zijn. Een andere vorm van vergeetachtigheid is dat Claude vergeten is wat hij enkele uren daarvoor nog volledig correct heeft uitgevoerd en nu spontaan iets doet wat niet correct is. Het resultaat is dat ik nu met een 40-tal verschillende versies zit, waarbij bij de ene versie iets goed gaat maar iets anders fout, en bij een andere versie na een debug die fout er uit gehaald is, maar nu iets fout gaat wat in de vorige versie nog correct werd afgehandeld. Een derde vorm van vergeetachtigheid is dat de context vergeten wordt. De context is de conceptualisatie van het programma, maar ook mijn eigen wensen als programmeur en mijn wensen voor de interactie tussen mijzelf en Claude. Zo kwam ik er op een gegeven ogenblik achter dat de regels van het spel niet langer toegepast werden, zodat het programma fundamenteel onjuist was gaan werken. Het lijkt er op dat die context telkens opnieuw gegeven moet worden. Het frustrerende hier is dat het urenlang goed gaat en dan opeens niet meer. Er is geen aankondiging van die vergeetachtigheid.

Geen terugkeer naar een uitgangspunt. Na vaststelling van fabulatie of vergeetachtigheid wil je graag terug naar een uitgangspunt waarbij de boel nog correct werkte. Het terugzetten van stappen blijkt een probleem te zijn. Eén keer had ik versie 30, na een debug met verkeerde uitgangspunten had Claude v31 van de code gegenereerd. Na instructie dat een en ander onjuist was en weer teruggedraaid moest worden, ging Claude versie 32 aanmaken op basis van versie 31, waarin dus de nodige fouten geslopen waren. Terug naar versie 30 bleek een probleem te zijn. Claude had daar geen administratie van, maar bouwt vrolijk verder op de laatste versie, juist of niet.

Output spugen. Zoals gezegd produceert Claude razendsnel output en dat is een groot plezier als de uitgangspunten juist zijn. Als er echter een denkfout gemaakt wordt wil je dat stopzetten. Het detecteren van zo’n denkfout is echter geen sinecure, aangezien Claude aanmerkelijk sneller tekst genereert dan ik als mens kan lezen. Claude produceert veel output, heel erg veel output. Instructies om dat te beperken tot hoofdlijnen, veronderstellingen, conclusies werken niet, niet geweldig of slechts tijdelijk. De tekst productie is niet bij te benen. Ook de code productie is groot. Duizend nieuwe regels zijn binnen enkele minuten geproduceerd. Prachtig als alles goed werkt, maar als je het zorgvuldig door moet lezen op mogelijke fouten dan kost dat zeeën van tijd. Zelfgeproduceerde code is betrekkelijk snel te lezen, maar als je code van een ander door moet nemen (ook bij een menselijke collega), dan kost dat aanzienlijk meer tijd.

Hardnekkigheid en overgeneralisatie. Bij de solver moeten uiteenlopende beslissingsbomen opgezet worden. Die verschillen soms subtiel, maar soms moeten ook tegengestelde regels toegepast worden. Het onderscheid tussen verschillende stappen blijkt lastig voor Claude te zijn. Hoewel ik geprobeerd heb die stappen duidelijk te onderscheiden, bleek Claude graag een beslissingsregel die in eerste stap werkte opnieuw in een volgende stap toe te passen. Het plaatsen van een kaart op een lege plek kan uiteraard, maar als een serie kaarten verplaatst moet worden, bleek Claude nog steeds te rekenen met éen kaart per lege plek, ook na uitleg dat het correcte aantal 2 tot de macht van het aantal lege plekken was. Nog moeilijker bleek de omkering van een beslissingsregel te zijn. Zo bleek het toevoegen van een kaart aan de bodem van een (nieuwe) stapel een probleem te zijn, omdat dezelfde regel werd toegepast die geldig was voor het toevoegen van een kaart aan de top van een stapel. Eerst had ik dat probleem niet in de gaten, maar toen ik eenmaal doorhad dat dat het probleem was, kostte het vrij veel moeite om duidelijk te maken dat hier een tegengestelde beslissingsregel toegepast moest worden.

Gebrek aan zelfkennis. Claude heeft geen inzicht in de eigen sterke en zwakke kanten en kan stevig doordraven in een verkeerde richting. Toegegeven: zelfkennis is ook geen alomtegenwoordige eigenschap bij mensen. Maar Claude kan soms een zekere hardnekkigheid tonen en dat is lastig. Vooral ook omdat Claude soms uitstekend werk kan afleveren en dan opeens broddelwerk op basis van verkeerde uitgangspunten. Ook als gebruiker is het niet eenvoudig om te zien wanneer Claude goed werk aflevert en wanneer werk met problematische fouten.

Het is geen mens. Om te leren werken met AI moet je goed in de gaten hebben dat je niet met een mens te maken hebt. Soms zijn dingen gemakkelijk voor een mens te zien, maar lastig voor een computer. Ik heb al genoemd dat het foutloos lezen van een screenshot voor een computer niet gemakkelijk is, terwijl een mens dat in een oogopslag zou kunnen. Ook het essentiële verschil tussen een bodemkaart en een topkaart hoef je aan een mens nauwelijks uit te leggen, maar voor een AI machine is dat lastiger en moet dat verschil herhaaldelijk geëxpliciteerd worden.

Spelregels Streets

'Meld je aan voor de nieuwsbrief'