WIKIPEDIA

Bedre maskinoversettelser skal få fart på artikkelskrivingen i Wikipedia

Har innført støtte for Google Translate.

Wikipedia har fått utvidet støtte for maskinoversettelse av artikler. På bildet vises en artikkel om kommunikasjonssystemet ACE High, som ennå ikke er tilgjengelig på norsk. Maskinoversettelsen som vises til høyre, er gjort med Yandex Translate. Den er på ingen måte klar til å bli publisert, men kan likevel gjøre det likevel enklere å lage en brukbar artikkel.
Wikipedia har fått utvidet støtte for maskinoversettelse av artikler. På bildet vises en artikkel om kommunikasjonssystemet ACE High, som ennå ikke er tilgjengelig på norsk. Maskinoversettelsen som vises til høyre, er gjort med Yandex Translate. Den er på ingen måte klar til å bli publisert, men kan likevel gjøre det likevel enklere å lage en brukbar artikkel. Skjermbilde: digi.no
Harald BrombachHarald BrombachNyhetsleder
14. jan. 2019 - 14:20

Wikipedia finnes på rundt 300 språk, men det er stor forskjell på hvor mange artikler som er tilgjengelige på de ulike språkene. Interessant nok er det heller ingen direkte sammenheng mellom antallet artikler og hvor mange som har språket som morsmål. 

Fortsatt er den engelskspråklige utgaven av Wikipedia den største med nesten 5,8 millioner artikler. Men på de to neste plassene følger cebuano og svensk. Cebuano er et språk som snakkes av rundt 20 millioner mennesker på Filippinene. Cebuano-utgaven av Wikipedia har mer enn 5,3 millioner artikler. Den svenske utgaven har over 3,7 millioner artikler.

Til sammenligning har bokmålutgaven nylig passert en halv million, mens nynorskutgaven nærmer seg 142 000. Dette er langt færre enn i de største utgavene, men likevel i en helt annen skala en for eksempel Zulu-utgaven, som bare har rundt 1100 artikler. Dette til tross for at Zulu snakkes av mer enn 12 millioner mennesker. 

Det er nok mange årsaker til at det er så store forskjeller. Tilgang på internett er bare én av dem. 

Tidkrevende

Blant målene til Wikipedia er at brukerne skal få tilgang til informasjon på deres eget språk. Dessverre er det fortsatt slik at brukerne, også norske, stadig må velge andre språk for å finne informasjon om temaene de er opptatt av. 

Selv om mange artikler kan skrives på få minutter, da de handler om noe som kan forklares på en enkel måte uten mange detaljer, er det andre temaer som krever langt mer arbeid. Det er ikke slik at Wikipedia-artiklene må være komplette og utfyllende i det øyeblikket de publiseres. Svært mange artikler har blitt utvidet og endret en rekke ganger, av helt andre personer enn den som opprinnelig opprettet artikkelen.

Men for å komme i gang med en artikkel kan det være greit å ta utgangspunkt i en artikkel som allerede er skrevet, på et annet språk. For det er ikke bare det å skrive teksten som tar tid. Artikkelens oppbygning, bilder og mye annet må også på plass. Da kan det være hensiktsmessig å kopiere dette fra en artikkel som allerede eksisterer på for eksempel engelsk eller svensk. 

Maskinoversettelse

For å gjøre slik oversettelse enklere, har Wikipedia et innebygd oversettelsesverktøy. Dette er integrert med ulike automatiserte oversettelsestjenester, men til nå har den mest etterspurte, Google Translate, manglet. 

I forrige uke kunne Wikimedia Foundation, stiftelsen som står bak Wikipedia, kunngjøre at Google Translate har blitt integrert i oversettelsesverktøyet. I tillegg til at man nå kan velge mellom flere oversettelsestjenester enn tidligere, støttes i tillegg flere språk. Til nå skal rundt 400 000 artikler på ulike språk ha blitt opprettet gjennom oversettelsesverktøyet.

I verktøyet ser man originalartikkelen og den oversatte artikkelen side om side. Selv om oversettelsestjenester som Google Translate har blitt mye bedre med årene, er det fortsatt ikke slik at oversettelsen kan publiseres direkte, uten at brukeren har korrigert feiloversettelser og andre mangler, inkludert den språklige flyten.

Foreløpig ser det ikke ut til at det er mulig å oversette ved hjelp av Google Translate til verken bokmål eller nynorsk. Ved oversettelse til bokmål er det ofte bare mulig å velge Yandex Translate, men ved oversettelse fra enkelte språk støttes også Apertium-tjenesten.

I noen tilfeller er det også mulig med maskinoversettelse til nynorsk i Wikipedia. For eksempel støttes oversettelse fra svensk til nynorsk med Apertium. 

Lsjbot

Det mange kanskje fortsatt lurer på, er hvorfor det finnes så mange artikler på de tross alt relativt små språkene cebuano og svensk. Det hele skyldes én mann, Sverker Johansson, som for en del år siden utviklet programvaren Lsjbot. Denne programvaren har automatisk lagd et stort flertall av artiklene man finner i Wikipediaene for de to nevnte språkene. Den svenske fordi Johansson er svensk. Cebuano-utgaven fordi dette er morsmålet til hans kone. 

Bot-en skal også ha lagd mange artikler i Wikipediaen for språket waray-waray, som også brukes av flere millioner mennesker på Filippinene. 

På virkelig gode dager har Lsjbot produsert rundt 10 000 artikler. Artiklene skal først og fremst ha vært om levende organismer og geografiske steder, inkludert fjell, innsjøer og elver. De fleste er temmelig like, med noen linjer tekst og en faktaboks. 

Artikkelen fortsetter etter annonsen
annonse
Innovasjon Norge
På trappene til internasjonal suksess
På trappene til internasjonal suksess

Dette har ført til noe kritikk. Men Johansson hadde svaret klart da han i 2014 ble intervjuet av Aftonbladet

– Slik det er nå, er Wikipedia veldig ubalansert i sin dekning. Det skrives av hvite, unge nerder – menn. Jeg skriver om alle dyr og planter, ikke bare det som gutter syn er kult, sa han. 

Les også: Fra null til 36 millioner artikler på 15 år

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.
Tekjobb
Se flere jobber
En tjeneste fra