Nå blir KI-modeller satt på harde prøver – med et klassisk Nintendo-spill

Hvem sa at dataspill bare er for gøy? I hendene på flere store KI-laboratorier har Pokémon blitt et viktig verktøy for å vurdere hvor mye bedre språkmodeller som Claude, Gemini og GPT blir.

Nå spiller også de store KI-modellene Pokémon – for å lære å møte virkeligheten. Andrew Te/Unsplash

Kalle Wiklund, Ny Teknik

1. feb. 2026 - 13:00

KI-systemet Alpha Go skapte overskrifter over hele verden i 2016 da det slo den topprangerte spilleren Lee Sedol i en serie kamper i strategispillet Go.

Siden den gang har det skjedd mye innen utviklingen av kunstig intelligens (KI). For bedre å kunne analysere og vurdere kapasiteten til nye språkmodeller har KI-forskere nok en gang vendt blikket mot spillverdenen.

Evnen til å resonnere

Denne gangen handler det om dataspill – og spesifikt de første Pokémon-spillene, som opprinnelig ble lansert til Nintendos håndholdte Gameboy.

Ifølge David Hershey, som er ansvarlig for anvendt kunstig intelligens hos Anthropic, selskapet bak Claude, har Pokémon flere egenskaper som gjør spillene bedre egnet til å evaluere modellene enn tradisjonelle ytelsesmålingsverktøy, skriver Wall Street Journal (WSJ).

Det er fordi Pokémon krever at KI-modellene viser evne til å resonnere, ta beslutninger og jobbe mot langsiktige mål – noe som bedre speiler de komplekse oppgavene systemene kan møte i virkeligheten.

For eksempel strømmer e av Open AIs kontorer en sending der en KI-modell har spilt Pokémon over lengre tid.

Minnesystem

Det finnes også offentlige direktesendinger på Twitch der andre KI-utviklere lar Open AIs Chat GPT, Googles Gemini og Anthropics Claude teste styrken sin i spillet.

Ifølge David Hershey i Anthropic har denne typen utradisjonelle ytelsestester blitt en viktig faktor i videreutviklingen av selskapets KI-agenter. Det gjelder blant annet utviklingen av et slags minnesystem som gjør det mulig for Claude-modellen å holde oversikt over viktig informasjon den har lært underveis i spillet.

– Spillene gir oss en veldig god mulighet til å teste hvor godt en modell presterer – og faktisk kunne evaluere det på en kvantitativ måte, sier David Hershey til WSJ.

Skal forstå vår verden

Dataspill brukes ikke bare til å stressteste språkmodellenes ytelse. Deepmind, Googles KI-laboratorium, har lenge hatt interesse for spillverdenen. I 2019 kom Alphastar, et KI-program som skulle lære seg strategispillet Starcraft II.

Nå bruker Deepmind spill-lignende miljøer i prosjektet Genie 3 for å utvikle det som regnes som neste steg etter chatbotene – såkalte verdensmodeller. Dette er ny teknologi for å skape sammenhengende 3D-representasjoner – for eksempel 3D-verdener som ligner dem fra spill – som KI-agenter deretter kan utforske.

Håpet er at verdensmodellene skal hjelpe KI med å bli bedre til å forstå hvordan vår virkelighet fungerer, med fysiske lover, objektkonstans og årsakssammenhenger. Ved å oppnå dette ønsker KI-selskapene blant annet å kunne bygge roboter med mer avansert evne til å navigere i tredimensjonale rom – for eksempel i hjem eller fabrikker.

Artikkelen ble først publisert på Ny Teknik

Skjermbilde fra Anthropics Super Bowl-reklame

Les også:

Håner Chat GPT

Kunstig intelligens

Kommentarer

Du må være innlogget hos Ifrågasätt for å kommentere. Bruk BankID for automatisk oppretting av brukerkonto. Du kan kommentere under fullt navn eller med kallenavn.

Se flere jobber

Jobbintervjuet: Slik forbereder du deg optimalt

Les mer

Fagleder Datainnsikt og Rapportering

Direktoratet for strålevern og atomsikkerhet

Dataansvarlig senioringeniør / seniorrådgiver atomberedskap

Cyber Security Researcher

Få annonsen din her og nå frem til de beste kandidatene

Lag en bedriftsprofil

En tjeneste fra