Sensor skal slippe å lese stilen

Konkurranse for programvare som påstår å kunne sette riktig karakter.

Eksamen ved Lycée Clémenceau i Nantes i Frankrike 16. juni 2011. Kan man overlate til et dataprogram å lese stilene deres og fastsette karakterene?
Eksamen ved Lycée Clémenceau i Nantes i Frankrike 16. juni 2011. Kan man overlate til et dataprogram å lese stilene deres og fastsette karakterene? (Bilde: Scanpix REUTERS/Stephane Mahe)

Konkurranse for programvare som påstår å kunne sette riktig karakter.

Mandag 30. april avsluttes en hundre dager lang konkurranse mellom utviklere av programvare som leser og fastsetter karakterer til stiler. Konkurransen organiseres av det australske selskapet Kaggle spesialist på algoritmetevlinger innen kunstig intelligens.

Formelt sett dreier det seg om å utvikle en algoritme for å lese gjennom skoleelevers stiler og angi den samme karakteren som stilen hadde fått dersom den hadde vært vurdert av en gruppe sensorer etter bestemte kriterier, som relevans, resonnement, språk, generelt innhold og så videre.

Algoritmen skal kunne håndtere både stiler der det dreier seg om å trekke konklusjoner på grunnlag av oppgitt innhold, og mer generelle stiler der poenget er å dikte, kommentere eller fortelle.

Konkurransen, Automated Essay Scoring, er fase én av tre i en tevling kalt Automated Student Assessment Prize (ASAP) som er sponset av stiftelsen William and Flora Hewlett Foundation. Premiepotten er på 100 000 dollar. Vinneren får 60 000 dollar, nestbest får 30 000 dollar.

ASAP er i praksis en utfordring til ni kjente leverandører av programvare som leser skoleelevers stiler og som fastsetter karakter. Disse leverandørene har hatt produkter på markedet i tjue år, uten å ha blitt gjenstand for uavhengig vitenskapelig vurdering.

Rett over påske publiserte ASAP en sammenliknende studie av de ni applikasjonene i tevlingen, Contrasting State-of-the-Art Automated Scoring of Essays: Analysis (pdf, 54 sider). Her vurderes ikke løsningene opp mot hverandre. Temaet er heller å se på hvordan de i snitt vurderer utvalgte stilkategorier, sammenliknet med hvordan de samme kategoriene er vurdert gjennom tradisjonell manuell stilsetting.

Studien omfatter i overkant av 22 000 stiler fra elever på årstrinn 7, 8 og 10, altså tilsvarende ungdomsskolen.

Konklusjonen er interessant: Uoverensstemmelsen mellom algoritmenes vurderinger og de menneskelige sensorenes vurderinger er minimal, selv om metodene anvendt i de ulike algoritmene er svært forskjellige.

Initiativtakerne til ASAP sier i en pressemelding at de håper studien og tevlingen vil legge et grunnlag for mer utstrakt bruk av automatisk stilvurdering i skolen, og for mer bruk av stiler framfor tradisjonelle flervalgsprøver, siden lærere kan forespeiles å slippe å rette stilene selv.

Kriteriene for å kåre vinneren omfatter ikke bare algoritmens treffsikkerhet, men også faktorer som brukervennlighet og økonomi. En av deltakerne som kan ligge godt an, tilbyr algoritmen som tjeneste fra nettskyen: Læreren laster opp stilene, og får karakterene i retur.

En journalist i Financial Times lot en av deltakerne fastsette karakteren på hennes artikkel om ASAP, sammenliknet med et tusentalls stiler fra ungdomsskoleelever om IT. Algoritmen ga henne 11 poeng av 12 mulige, slik at hun havnet på tredje plass av utvalget på 1000. (Se Can essay-marking software pass the test?)

Til toppen