I begynnelsen av juni publiserte forskere hos Apple en vitenskapelig artikkel med tittelen The Illusion of Thinking, som raskt fikk stor oppmerksomhet, til tross for at den ikke er fagfellevurdert. Forskerne har evaluert en rekke resonnerende modeller (LRM – large reasoning models) fra blant andre Anthropic, Deepseek, Google og Open AI.
Konklusjonen deres er at modellene ikke resonnerer i det hele tatt – det er bare en illusjon. KI-skeptikere har løftet frem studien i flere store medier. Den kanskje mest kjente blant dem, Gary Marcus, skrev for eksempel i The Guardian at artikkelen «nærmest pulveriserer» forestillingen om at resonnerende modeller kan resonnere «pålitelig».
Forskerne testet modellene med fire matematiske gåter, eller spill, blant annet klassikeren Tårnene i Hanoi. Spillene ble valgt fordi de lar forskerne vurdere om modellene faktisk kan resonnere steg for steg eller bare gjenkjenner mønstre. Oppgavene er klart definert og etterprøvbare: Modellen gir enten riktig eller feil svar.
Det Apple-eksperimentet viser, er at alle testede modeller bryter sammen når kompleksiteten blir for høy. Utover en viss grense er modellens evne til å løse oppgavene ikke-eksisterende.
Så: Er saken avgjort? Er det spikeren i kista? Kan vi glemme alle løfter om nært forestående generell kunstig intelligens?
Nei, ikke helt.
Tenkningens illusjon
La oss begynne med tittelen på artikkelen deres. Den er glimrende dersom målet er å vekke oppmerksomhet – og det har de klart. Men forskerne demonstrerer aldri at modellenes tenkning er en illusjon. Det de faktisk viser, er at modellene ikke klarer visse oppgaver når de blir vanskelige nok.
Det kan høres ut som en liten forskjell, men den er faktisk viktigere enn man kanskje tror.
For det første vet ikke forskerne hvordan noen av modellene faktisk resonerer. Har du brukt en resonnerende chatbot før, har du sett hvordan svarene gjerne innledes med at modellen «tenker høyt». Dette er imidlertid bare en klartekst-gjengivelse som kanskje – eller kanskje ikke – stemmer med modellens «indre tankeprosess».
Innblikk i den indre dialogen
Anthropic har utviklet en metode for faktisk å undersøke denne «indre dialogen» og har vist at modellen Claude kan resonnere gjennom mange trinn som brukeren aldri får se. De har også funnet at samme prompt kan gi store variasjoner i klarteksten brukeren ser. Med andre ord: det Apple-forskerne evaluerte, var en lite pålitelig representasjon av det underliggende resonnementet.


Siden jeg – og mange med meg – har lett for å menneskeliggjøre kunstig intelligens, kan vi like gjerne ta det hele veien: Mennesker kan opptre useriøst i ett øyeblikk og så diskutere universets opprinnelse i det neste. En observatør kan mene at jeg oppfører meg barnslig, men det utelukker ikke at jeg også kan tenke dypt.
Likevel klarte ikke modellene forskernes test.
Ga modellene opp?
Spørsmålet er hvor relevant det egentlig er. Det går nemlig an å tolke resultatene som en styrke, ikke en svakhet.
Deepseek-R1, Claude 3.7 Sonnet og o3-mini – tre av modellene Apple brukte – har alle et såkalt kontekstvindu, som kan sammenlignes med en slags arbeidsminnekapasitet. Det avgjør hvor mye informasjon en modell kan håndtere uten å miste oversikten.
Forskerne merket seg et tilsynelatende urovekkende mønster: Jo vanskeligere oppgavene ble, jo færre «tenkehøyt»-sekvenser fikk de fra modellen. Men kontekstvinduet var fortsatt ikke fullt. Det virket rett og slett som om modellene «ga opp».
I artikkelen tolkes dette som bevis for at modellene ikke evner å resonnere utover en viss vanskelighetsgrad.


Men finnes det andre forklaringer? Ja. Ved høy nok kompleksitet – for eksempel i Tårnene i Hanoi – kreves det en løsning som ikke får plass i modellens kontekstvindu. Da kan ikke modellen løse oppgaven, uansett hvor godt den evner å resonnere. I andre forsøk på å gjenskape Apples test, har for eksempel Claude uttalt at «på grunn av det store antallet steg, forklarer jeg heller prinsippet for løsningen enn å ramse opp alle de 32.767 stegene individuelt».
Jeg sier ikke at dette nærmest er et tegn på avansert metaresonnering, men jeg sier at forskerne like gjerne kunne kommet til den konklusjonen.
Det finnes også metodiske svakheter i eksperimentet. Én av oppgavene var matematisk umulig å løse – hverken menneske eller maskin ville klart det.
mel
Kunne mennesker løst de andre oppgavene?
Både ja og nei. På lavere vanskelighetsgrader i et spill som Tårnene i Hanoi kan vi «holde løsningen i hodet», på samme måte som når vi husker gangetabellen. På høyere nivåer må man forstå de matematiske reglene for å unngå endeløs prøving og feiling.
Men få av oss ville valgt et nivå som krever ti tusenvis av steg samtidig som vi forklarer hvert steg underveis. Når oppgaven blir for kompleks, bruker vi verktøy: papir, kalkulator eller datamaskin.
Forskerne lot ikke modellene bruke slike verktøy. Det er verdt å merke seg, for i virkelige applikasjoner samarbeider KI-modeller ofte med kodefortolkere, kalkulatorer eller søkemotorer. Dagens modeller kan generere kode som lett løser Hanoi-problemet. KI-forsker Lawrence Chan gjenskapte deler av eksperimentet og fikk til svar fra Claude 4 Opus: «Jeg forstår algoritmen perfekt, men å skrive ut tusenvis av steg manuelt ville vært ekstremt tidkrevende, og det er stor risiko for at det blir feil».
Legg også merke til Claude 4 Opus – Anthropics nyeste og kraftigste modell. Den er ikke med i Apples studie.
Det er forståelig: Utviklingen går så raskt at studier ofte er utdatert før de publiseres. Kan OpenAIs nylig lanserte o3 Pro – med større kontekstvindu og bedre initialprompt – beskrive alle 32.767 steg og løse gåten? Det gjenstår å se.
Til slutt erkjenner forskerne selv at testen dekker et svært snevert utvalg av oppgaver som krever resonnering.
Så: Er saken avgjort? Er det spikeren i kista? Bør vi fortsatt håpe på – eller frykte – generell kunstig intelligens?
Nei, ikke helt. Det er fortsatt en mulighet for at det finnes fundamentale begrensninger i KI-modeller som vil bremse utviklingen. Men denne studien er ikke det sterkeste argumentet for det.
Analysen ble først publisert på Ny Teknik for deres abonnenter. Den er tilgjengelig på norsk for Digis abonnenter gjennom en samarbeidsavtale.

KI-gigantene: Advarer om at modellene kan bli vanskeligere å forstå