Fra bare én blodprøve kan kunstig intelligens gi diagnose for mange ulike sykdommer

Nytt diagnoseverktøy finner mønstre blant reseptorer i immunforsvaret vårt. Når neste pandemi kommer, tror forskere den vil vise hva den er god for.

En blodprøve inneholder reseptorer fra uendelig mange immunceller. Illustrasjonsfoto: Colourbox

Eivind Torgersen, Titan.uio.no

18. jan. 2022 - 19:00

Seksjonen Fra forskning består av saker som er skrevet av ansatte i Sintef, NTNU, Universitetet i Oslo, Oslo Met, Universitetet i Agder, UiT Norges arktiske universitet, Universitetet i Sørøst-Norge og NMBU.

Immunsystemet vårt er bygget opp av millioner av ulike celler. Noen av dem kalles B-celler og T-celler. B-cellene lager antistoffer mot fiendtlige inntrengere, mens T-cellene blant annet kan drepe celler som er infisert.

Alle disse cellene har små reseptorer på overflaten. Det er disse reseptorene som gjør dem i stand til å kjenne igjen og feste seg til virus og bakterier eller til celler som er angrepet av slike fremmedelementer. Alle typer celler har reseptorer, men bare immunceller har immunreseptorer.

Det finnes veldig mange forskjellige B- og T-celler med til sammen millioner av slike immunreseptorer. Noen av dem er vi født med – de tilhører det som kalles det medfødte immunforsvaret. Andre reseptorer kommer til når kroppen tar opp kampen mot nye og ukjente trusler eller når vi får vaksiner – disse er del av det ervervede immunforsvaret.

Fra én enkelt blodprøve

Bioinformatikk

Bioinformatikk er et fagfelt som bruker informatikk for å behandle biologisk informasjon. For eksempel kan analyse av en blodprøve fortelle om hvor en persons forfedre stammer fra, hvilke sykdommer vi er medfødt mottagelige for eller om vi har vært på åstedet for en kriminell handling.

Kilde: Store norske leksikon

Reseptorene i det ervervede immunforsvaret kan fortelle veldig mye om hvilke sykdommer vi har vært utsatt for i løpet av livet. Men siden det er så mange av dem, er det nesten håpløst å lete etter dem. Det er som å se etter nåla i høystakken. Med mindre man kan bruke maskinlæring, en form for kunstig intelligens, til å se på saken.

Og det har forskere ved Universitetet i Oslo (UiO) nå gjort. Maskinlæringsverktøyet immuneML skal gjøre det mulig å sjekke for mange forskjellige sykdommer i bare én enkelt blodprøve. Hemmeligheten er å gi en datamaskin i oppgave å se etter mønstre blant de mange reseptorene i det ervervede immunsystemet.

– Klarer vi å finne mønstrene, kan vi kanskje stille diagnose for en rekke sykdommer fra bare én enkelt blodprøve. Ved å analysere blodprøven ved hjelp av maskinlæring kan vi finne mønstrene som pasientens immunsystem har lagret, sier førsteamanuensis Victor Greiff ved Institutt for klinisk medisin.

Virus og bakterier – til og med kreft og autoimmunitet

I dag har ulike sykdommer og lidelser hver sine metoder for å teste om en person er rammet eller ikke. Det kan være tungvint og lite effektivt. En datamaskin kan analysere enorme mengder data på mye kortere tid.

– Hvis vi analyserer disse reseptorene med maskinlæring, håper vi å kunne si helt spesifikt hva hver av disse reseptorene er knyttet til, hvilken bestemt sykdom, hvilket virus eller hvilken bakterie, til og med kreft og autoimmune sykdommer, sier Milena Pavlovic.

Victor Greiff og Geir Kjetil Sandve. Foto: UiO

– Hvis du vet hvordan verktøyet virker for én sykdom, kan det være relativt enkelt å lage diagnoseverktøy for andre typer sykdommer også, sier Lonneke Scheffer.

Pavlovic og Scheffer tar doktorgraden ved UiOs Institutt for informatikk og står for mye av programmeringen som ligger bak immuneML. De samarbeider tett med medisinere som Victor Greiff.

– Ved hjelp av maskinlæring kan vi finne mønstre som kan gi oss masse informasjon om helse og sykdom, uten at vi i utgangspunktet vet hvordan de ser ut eller hva som kjennetegner dem. Det er det som er så unikt og spennende med maskinlæring, sier Greiff.

Klar til neste pandemi

Kunnskapen om immunreseptorer går bratt oppover, men det er et ganske nytt forskningsfelt. Til sammenligning har forskere jobbet i over et tiår med gentester som kartlegger hvilke deler av arvestoffet som er viktige for ulike sykdommer.

– Problemet med de genetiske testene er at de bare sier noe om hvor stor risiko en person har for å utvikle en sykdom, sier professor Geir Kjetil Sandve ved Institutt for informatikk.

– Immunreseptorene, derimot, viser reaksjoner på sykdommer som allerede pågår i kroppen. De sier ikke at du har økt risiko for en sykdom. De sier at du allerede har denne sykdommen og at du sannsynligvis kommer til å merke symptomene om få år, sier Sandve.

Feltet var for ferskt til å kunne spille en stor rolle under den pågående koronapandemien. Dersom verden rammes av en ny pandemi om ti år, tror Sandve at koblingen mellom immunologi og maskinlæring kan spille en stor rolle.

– Da tror jeg det kan være mulig å stille diagnose ved å bruke denne metoden. Det kan også hende vi kan lage prognoser ut fra hva slags immunrespons folk har, for å avgjøre om de bør legges inn på intensivavdeling eller ikke. Vi kan kanskje se hvor effektiv respons de vaksinerte har – om immunsystemet har laget gode motstandsstoffer, sier Sandve.

Det er i hans forskningsgruppe, Sandve Lab, mye av programmeringen foregår.

Bladmodul med 8 av 304 Nvidia «Grace Hopper» GPU-er, som til sammen utgjør superdatamaskinen Olivia.

Les også:

Ny motor for tungregning i Norge: Olivia er i drift

Håper på en katalog over immunreseptorer

De genetiske testene har et forsprang siden det er et mer etablert forskningsfelt der det er gjort massevis av studier som til sammen kan si noe om risiko for mer enn 1000 sykdommer.

– Det samme ser jeg for meg at kan skje med immunreseptorene. Vi vil få en katalog over hvilke reseptormønstre som er knyttet til hvilke sykdommer.

– Om fem til ti år burde det gå an å ta én blodprøve, finne alle immunreseptorene, analysere det mot en katalog av hundrevis av ulike sykdommer og på den måten kunne stille en diagnose. Du kan kanskje få beskjed om at du har diabetes på gang uten at du selv hadde tenkt på i det hele tatt, sier Sandve.

Dette er ikke noe det er mulig for en kliniker å få til i laboratoriet.

– Her trenger vi maskinlæring fordi mønstrene er mye mer komplekse for immunreseptorene, sier Sandve.

immuneML skal også være et verktøy for klinikere som ikke har etablert noe samarbeid med maskinlærere.

– Det gir dem muligheten til å undersøke disse millionene med reseptorer og se om de finner noen signaler, noe som de overhodet ikke kunne gjort uten maskinlæring, sier Sandve.

Cøliaki er allerede under lupen

Sandve, Scheffer og Pavlovic samarbeider med forskere på Rikshospitalet for å studere immunreseptorer som kan knyttes til cøliaki. Da tar de selvfølgelig i bruk sitt eget nye verktøy.

– Vi bruker det selv for å se etter mønstre i disse millionene med reseptorer som kan si om en person har cøliaki, sier Sandve.

Foreløpig har de gjort noen pilotanalyser. Ifølge Sandve er de lovende, men ikke mange nok til å konkludere. Det kan endre seg neste år når de får tilgang på 500 prøver fra biobanken HUNT – Helseundersøkelsen i Trøndelag.

– Først når vi får de 500, vil vi se hva denne metoden kan bringe. Vi håper å kunne utvikle en diagnostisk test for klinisk bruk basert på dette, sier Sandve.

Må oversettes til dataspråk

Nå er det ikke bare bare å lære en datamaskin å se etter mønstre i immunreseptorene. Det er ekstremt mye informasjon som skal analyseres.

– Reseptorene har en helt bestemt tredimensjonal form som gjør dem i stand til å binde seg til ulike antigener, sier Lonneke Scheffer.

Men denne 3D-fasongen er ikke noe algoritmene kan jobbe med. De må på en eller annen måte oversettes til et matematisk språk, og her kommer DNA-et til hjelp. Reseptorene er proteiner, og alle proteiner har sin egen DNA-oppskrift.

– Disse DNA-sekvensene gir oss en linje med bokstaver som vi kan oversette til proteinsekvenser i en datamaskin. For å forutsi om en reseptor binder seg til et koronavirus eller ikke, ser vi egentlig bare på en bokstavrekke, sier Scheffer.

Milena Pavlovic (t.v.) og Lonneke Scheffer har programmert immuneML. Foto: Eivind Torgersen/UiO

Slik maskinlæring fungerer, må den først «trene» seg på et datasett der man allerede kjenner resultatet, for eksempel om det inneholder DNA-sekvenser som binder seg til koronaviruset eller ikke. I disse treningsdataene ser maskinen etter mønstre som er altfor kompliserte for et menneske å finne frem til. Deretter får algoritmen prøve seg på data der man ikke kjenner resultatet, og så sjekker man hvor godt den treffer med antagelsene sine.

– Basert på en matematisk representasjon ser maskinlæringsmodellen etter et mønster i denne representasjonen, et mønster som kan være nyttig for å forutsi noe om den oppgaven vi har gitt den, sier Pavlovic.

Et repertoar av reseptorer

Forskerne nøyer seg ikke med å se på en og en reseptor. De vil analysere hele samlingen av ervervede immunreseptorer en person har i kroppen. På engelsk kalles dette adaptive immune receptor repertoire (AIRR).

Adaptive, eller ervervet, fordi det tilpasser seg. Dette er reseptorer vi tilegner oss, som ikke er arvelige. Og det er definitivt snakk om et repertoar, som ifølge ordbøkene også kan bety skattkammer, forråd eller lager.

– Disse repertoarene er ekstremt forskjellige. Det er også grunnen til at de vanskelige å analysere. De inneholder store mengder ulike immunreseptorer, og de er ganske forskjellige fra person til person, sier Scheffer.

– Vi ser på mellom 100.000 og én million reseptorer, og fortsatt er det bare en del av hele repertoaret. Hver og en av dem kan være knyttet til en spesifikk sykdom, sier Pavlovic.

I dette repertoaret vil de sette datamaskinen i stand til å finne mønstre som kan kobles opp til en rekke ulike sykdommer og lidelser – fra en og samme blodprøve.

Åpent for alle

Det nye verktøyet immuneML ligger allerede ute, åpent for alle som er interessert i å prøve det. Pavlovic og Scheffer jobber med å utvikle det videre.

– Neste skritt for oss er å gjøre modellene vi har laget, enda mer robuste. Vi vil for eksempel sørge for at en modell som er trent på folk fra Oslo, også kan brukes i Bergen eller andre steder i landet eller i et annet land, sier Pavlovic.

– Det kan være hårfine forskjeller mellom ulike grupper som kan føre til gale prediksjoner. Slikt kan utgjøre et problem for maskinlæring og er noe vi planlegger å se nærmere på, sier hun.

De to doktorgradsstudentene har utviklet veiledningsmateriale for dem som vil prøve seg.

– Vi håper det vil oppmuntre folk til å utvikle nye verktøy som også legges ut med åpen kildekode og deles med hele forskningssamfunnet. Slik kan vi forbedre vår forståelse av hvordan immunsystemet faktisk gjenkjenner en sykdom, sier Pavlovic.

Allerede tatt i bruk

Geir Kjetil Sandve ser mye spennende maskinlæring i immuneML og mener det vil ha en viktig rolle i den videre utviklingen av feltet der maskinlærere og immunologer møtes.

– Uten dette ville det sittet mange ulike maskinlæringsforskere rundt i verden med helt inkompatible løsninger. De ville brukt masse tid på å løse de samme grunnleggende problemene. Hvis feltet skal få fart, er vi avhengige av å få en effektiv sammenligning av ideer på tvers av grupper.

– Vi har allerede sett at andre forskningsgrupper bruker immuneML, og flere grupper sier at de ønsker å ha sine egne systemer integrert med denne plattformen. Så langt virker det veldig lovende, sier, Sandve.

Denne artikkelen ble først publisert på Titan.uio.no