Gammelt OCR-motor gjort til åpen kildekode

HP har i samarbeid med Google utgitt Tesseract, et gammelt verktøy for tekstgjenkjenning, som åpen kildekode.

Tesseract er navnet på en OCR-motor (Optical Character Recognition) som ble utviklet av HP i 1985. Det skal ha i sin tid ha blitt regnet som et av tre beste programmene av sitt slag, men ble lagt ned i 1995.

Ifølge Google bestemte noen hos HP seg for et år eller to siden for at det var bedre å vekke motoren til live igjen ved å gjøre den om til åpen kildekode, enn bare å sitte på den. HP valgte å gjøre dette i samarbeid med Information Science Research Institute ved University of Nevada, Las Vegas, som i sin tur kontaktet Google for å få renset ut noen feil som hadde krøpet inn.

Google skal ha funnet de største feilene og bestemte for et par måneder siden at Tesseract OCR var stabil nok til å bli lansert på nytt som åpen kildekode. Selve utgivelsen skal ha skjedd for omtrent en måned siden, men den er først blitt annonsert nå.

Selv om Tesseract OCR har flere svakheter - den støtter kun engelsk språk, fungerer dårlig på materiale med flere kolonner og heller ikke setter særlig pris på dokumenter med gråtoner og farger, er den trolig bedre enn andre OCR-løsninger basert på åpen kildekode. Derimot henger den ifølge Google betydelig etter de beste kommersielle løsningene for tekstgjenkjenning.

Tesseract OCR-prosjektet er tilgjengelig på denne siden.

Til toppen