Vi har allerede sett mange eksempler på de imponerende egenskapene til moderne KI-tjenester, og i mange tilfeller slår KI-teknologien mennesker av kjøtt og blod. Nå har det blitt gjennomført nok en ny test med oppsiktsvekkende resultat.

Avisen New York Times rapporterte nylig at Open AIs Chat GPT-tjeneste ble benyttet i en klinisk studie som innebar å diagnostisere sykdommer – og gjorde det betydelig bedre enn ekte leger.

Suksessrate på 90 prosent

Testen innebar å be 50 leger om å komme opp med seks ulike medisinske diagnoser. Noen av legene ble gitt tilgang til Chat GPT til å hjelpe dem med oppgaven, mens resten ikke brukte KI-tjenesten i det hele tatt. I tillegg ble Chat GPT alene gitt den samme oppgaven.

Legene som ikke benyttet KI-tjenesten oppnådde en gjennomsnittlig suksessrate på 74 prosent, og interessant nok gjorde legene som brukte Chat GPT det bare marginalt bedre – 76 prosent.

Da Chat GPT ble bedt om å utføre jobben på egen hånd, endte den imidlertid med en gjennomsnittlig suksessrate på hele 90 prosent.

Dr. Adam Rodman, en av dem som var ansvarlig for å designe studien, uttalte overfor New York Times at han var «sjokkert» over at KI-tjenesten knapt var til hjelp da den ble brukt som hjelpemiddel. Enda mer sjokkert var han over at den slo legene med god margin på egen hånd.

Legene som deltok i studien hadde bakgrunn fra både indremedisin, allmennmedisin og akuttmedisin. Deltakerne ble forelagt oversikter over pasientenes symptomer og medisinske historikk, som de hadde 60 minutter på å studere.

– Videre utvikling nødvendig

Ifølge Dr. Rodman hadde Chat GPT begrenset nytteverdi som hjelpemiddel fordi legene simpelthen ikke trodde på KI-assistenten når de var uenige, og hadde større tro på egen dømmekraft.

På bakgrunn av de overraskende funnene konkluderte studien med at det gjenstår mye arbeid i å finne ut hvordan KI-teknologien kan brukes effektivt på dette området.

– Språkmodellen alene presterte bedre enn leger, selv når den var tilgjengelig for dem. Dette indikerer at videre utvikling innen menneske-datamaskin-interaksjoner er nødvendig for å realisere potensialet til kunstig intelligens i kliniske beslutningssystemer, heter det i selve forskningsdokumentet.

Digi skrev i januar om en studie hvor Chat GPT ble testet på diagnostisering av barn, og i den studien bommet snakkeroboten ganske grovt og hadde en suksessrate på bare 17 prosent. En forklaring på at denne nye testen endte så mye bedre, kan være at KI-teknologien er blitt forbedret med blant annet mer treningsdata siden sist.

Studien føyer seg inn i rekken av mange andre eksempler på at KI-teknologi utkonkurrerer mennesker. Tidligere har Digi blant annet skrevet om en britisk blindstudie hvor Chat GPT gjorde det bedre enn universitetsstudenter i et antall psykologieksamener.

I tillegg var svarene som ble levert av Chat GPT umulige å identifisere som KI-genererte svar i hele 94 prosent av tilfellene.