Norwegian Named Entities (NorNE) er et såkalt navnekorpus, det vil si en stor samling med tekst der alle navn er merket opp, opplyser Nasjonalbiblioteket i en pressemelding.
Vi ser nå at dataene allerede er tatt i bruk av open source-miljøet
De har utviklet ressursen i samarbeid med Schibsted Media Group og språkteknologigruppa ved Universitetet i Oslo.
– Dette er det første datasettet for navnegjenkjenning som er fritt tilgjengelig for norsk. Tidligere datasett har vært forbeholdt forskning, og dette har holdt kommersielle aktører tilbake. Vi ser nå at dataene allerede er tatt i bruk av open source-miljøet, og av andre kommersielle aktører, sier Fredrik Jørgensen i Schibsted.
Fri bruk
Han har vært sentral i arbeidet med NorNE, som finnes både i bokmål og nynorsk. Korpuset består av rundt 600.000 ord, likt fordelt på de to språkformene.
Ressursen er public domain med CC0-lisens, som innebærer fri bruk, også uten navngivelse.
Bruksområdene fremstår som mange. I dag forsøker alt fra samtaleroboter til automatiske oversettere og smarte søkemotorer å forstå hva vi skriver og sier. Men slike systemer fungerer ikke alltid like godt som ønskelig, og særlig ikke for små språk som norsk.
Creative Commons samler 300 millioner bilder til fri bruk i nytt søk
– Noe av problemet ligger i at programmene ikke alltid klarer å skille navn fra annen tekst. Ressursen vi har laget, kan brukes til å løse dette problemet, sier språkteknolog Per Erik Solberg ved Nasjonalbiblioteket i meldingen.
Offisielle versjoner av NorNE legges ut på Språkbankens nettsider. Utviklerversjoner er lastet opp på Github.