Kunstig intelligens

BBC tester KI til nyhetsartikler – halvparten har store feil

Et nytt eksperiment fra BBC avslører alvorlige mangler i KI-genererte nyhetsartikler. I 51 prosent av de testede sakene fant de unøyaktigheter, feil sitater og misvisende fakta.

Fire språkmodeller ble bedt om å lage et nyhetssammendrag av utvalgte artikler.
Fire språkmodeller ble bedt om å lage et nyhetssammendrag av utvalgte artikler. Illustrasjonsfoto: Colourbox
Rasmus Ourø Lund, Version 2
23. feb. 2025 - 15:44

Kunstig intelligens spiller en stadig større rolle i medielandskapet, der språkmodeller hjelper journalister med å produsere, oversette og redigere artikler raskt. Men ifølge en analyse fra britiske BBC inneholder KI-genererte nyhetssammendrag ofte feil, skriver selskapet.

– KI-assistenter kan for øyeblikket ikke stoles på til å levere presise nyheter, og de risikerer å villede mottakerne, konkluderer rapporten.

Metode

BBCs KI-team testet fire store språkmodeller – ChatGPT-4o, Microsoft Copilot Pro, Google Gemini Standard og Perplexity. De presenterte modellene for hundre nyhetsrelaterte spørsmål basert på populære Google-søk fra det siste året, hentet fra Google Trends.

Modellene ble bedt om å lage et nyhetssammendrag av de utvalgte artiklene, med en spesifikk instruks om å basere seg på BBCs nyhetskilder der det var mulig.

De totalt 362 KI-genererte svarene ble gjennomgått av 45 BBC-journalister med ekspertise på de aktuelle temaene. De vurderte svarene etter kriterier som nøyaktighet, upartiskhet, klarhet, kontekst og korrekt kildeangivelse. Resultatet viste at over halvparten av svarene inneholdt «signifikante feil».

I analysen advarer BBC om at feil kan forsterkes av KI-modellenes troverdighet:

– Vi vet fra tidligere forskning at når KI-assistenter siterer pålitelige medier som BBC, er publikum mer tilbøyelige til å stole på svaret – også når det er feil.

Hvilken KI klarer seg best?

For journalister som vurderer å delegere deler av arbeidet til en språkmodell, presterte Perplexity best i testen. Den hadde «signifikante problemer» i 40 prosent av tilfellene.

Googles Gemini kom dårligst ut, med feil i 60 prosent av tilfellene – noe som kan være verdt å ta i betraktning før man stoler på modellens svar.

Artikkelen ble først publisert på Version 2

KI-adopsjonen i bedrifter går unna, men alt er ikke bare fryd og gammen, avslører en ny undersøkelse.
Les også:

Rapport: Ansatte saboterer KI-satsing

Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.
Se flere jobber
Tre jobbtilbud 10 måneder før masteravslutning!
Les mer
Tre jobbtilbud 10 måneder før masteravslutning!
Få annonsen din her og nå frem til de beste kandidatene
Lag en bedriftsprofil
En tjeneste fra