(Foto: Kimm Saatvedt)

NTB sin nye journalistrobot

Gunnar brukte 15 000 linjer på å lage roboten. Den fjerner en veldig kjedelig jobb

 

Mandag i forrige uke publiserte Norsk Telegrambyrå (NTB) den første norske fotballartikkelen skrevet av en robot.

20 sekunder etter kampslutt mellom Aalesund og Start kunne NTB levere robotgenert tekst til sine lesere.

Det er sportsleder Magnus Aabech i NTB veldig fornøyd med.

– Det er morsomt å komme i gang når man har jobbet med et prosjekt i flere måneder. Det er viktig for oss å kunne levere umiddelbart. I vår bransje teller hvert sekund. Det er essensielt at kundene våre slipper å vente på stoffet, forteller han til digi.no

Det var Medier24 som først omtalte saken.

Ikke helt smertefritt

Selv om førstleveransen ikke gikk helt smertefritt, har NTB stor tro på tjenesten.

– Vi møtte på noen tekniske utfordringer, men de ble løst underveis. Det var blant annet en kamp som ikke ble eksportert rett til systemene våre, og en annen som ikke ble lastet opp. Vi satt og fulgte med tett og fikk løst problemene. Noe som selvfølgelig er det viktigste, poengterer han.

Sportsleder i NTB, Magnus Aabech, er veldig fornøyd med resultatet. - Dette har vært gøy, sier han om utviklingsprossesen. Foto: Presse/NTB

Nyhetsbyrået har livereportere på alle eliteseriekamper i Norge. Rapportene de skriver blir gjort om til data i et system som heter NIFS. Dataene danner så grunnlaget for de automatiserte referatene som sendes ut. Teksten i rapportene som sendes ut genereres fra rundt 500 forskjellige maler som NTB sine journalister har utarbeidet.

Godt språk

– Det er viktig for oss at artikkelene har variert og godt språk. Vi har dermed tenkt på alle mulige formuleringer til forskjellige situasjoner. Alt er helautomatisert. Det er også prekært for oss at vi forholder oss til fakta, forklarer sportssjefen til digi.no.

Den tekniske løsningen er utviklet av Bakken & Bæck. Fra et kontor i Bonn i Tyskland har utvikler Gunnar Grimnes stått for koding og planlegging.

– Vi har jobbet med journalistene fra NTB i fem måneder. Roboten skriver ikke tekst, den henter ut tekstblokker fra en mal og generer tekst basert på de i forhold til hvordan kampdataene ser ut. Hele artikkelen er på en måte laget som et tre der det viktigste kommer først, sier utvikleren til digi.no.

Github og Slack

Å jobbe over landegrenser har gått smertefritt.

– Vi har kommunisert via Github og Slack. Kommunikasjonen har derfor ikke vært noe problem. Tyskland er uansett ikke langt fra Oslo, og jeg har besøkt NTB flere ganger.

For at teksten som genereres ikke skal se ut som noe en femåring har spyttet ut, har NTB laget et sett med regler for hvordan artiklene skal presenteres.

– Det finnes regler for scoring på overtid. Regler for selvmål, om spilleren har blitt byttet inn og så videre. Det finnes omtrent to billiarder kombinasjoner for hvordan rapporten for en kamp kan se ut. Da kommer selvfølgelig tegnsetting og slike ting inn. Målsetningen er at referatene skal vare så variert som mulig.

Stor kapasitet

Det er viktig. For plutselig spilles det flere kamper på en dag. Om alle referatene ser like ut, vil NTBs lesere - som er vant til godt språk - reagere, ifølge sportssjef Aabech.

– En annen fordel med dette systemet er at journalistene får frigitt kapasitet. De får dermed mulighet til å prioritere hva som er viktig, og levere bedre redaksjonelt innhold til leserne våre. Det går eksempelvis på intervjuer med spillere etter kamp, oppsummerer han.

Ifølge utvikler Grimnes kan NTB dermed generere rapporter fra Tippeligaen i mange år fremover uten å repetere noe.

Sånn så det ut da NTB for første gang NTB lagde robotgenererte fotballrapporter. Foto: Skjermdump

Dataene som hentes fra NIFS-databasen til NTB konverteres til en graf som representeres i Rescource Description Framework (RDF). Grafen for Tippeligaen sesong 2015/2016 har en million kanter, ifølge utvikleren. Grimnes har jobbet med RDF i rundt ti år, og skrevet rundt 30 000 linjer med kode for rammeverket. Noe av dette blir selvfølgelig brukt i NTB-roboten i dag.

– Denne teknologien blir også brukt i IBM sin Watson og Google sin Knowledge Graph. Vi får dermed input fra grafen, artikkelmalen og artikkeltreet, og sjekker hvilke maler som passer ut ifra en shortlist, forteller han til digi.no.

15 000 linjer Python

Roboten består av rundt 15 000 linjer med Python-kode. I tillegg er det skrevet noen tusen linjer med HTML og Javascript som brukes i redigeringsverktøyet til journalistene. Utvikleren har også laget et eget programmeringsspråk som teksthaiene bruker for å skrive maler.

– Det var viktig for oss at dette skulle være intuitivt og enkelt å forstå. Det blir tross alt flere enn oss som har vært med på prosjektet fra start som kommer til å jobbe med dette fremover, sier Grimnes.

Å jobbe sammen med journalister synes utvikleren har vært gøy.

– Jeg er ikke fotballfan og har dårlig oversikt. Rundt halvparten av tiden har gått med til malene. 20 prosent av tiden gikk med til å lage en 80 prosentløsning, og så gikk resten av tiden med til å forbedre og justere koden og funksjonalitet.  Journalistene synes nok det har vært veldig gøy å jobbe med problemløsning og tenke på hva som kan gå galt. Alt skal jo passe sammen også i fremtiden. Jeg synes vi alle har vært veldig flinke, og vi har fungert godt som team.

Men hverken utvikleren eller sportssjefen tror roboten kommer til å slå beina under journaliststanden med det første:

– Nei. Flere nyhetsbyråer har drevet med dette i lang tid innen blant annet finans, så det er jeg ikke redd for sier, sportssjef Aabech til digi.no.

Til toppen