KODING

Nå blir det enklere å kode for forskere som jobber med biologiske data

Et nytt programmeringsbibliotek utviklet ved Universitetet i Oslo kan gjøre livet lettere for biologer og andre som skal analysere gendata.

Knut Rand (t.v) og Ivar Grytten har jobbet med programmeringsbiblioteket Bionumpy i flere år.
Knut Rand (t.v) og Ivar Grytten har jobbet med programmeringsbiblioteket Bionumpy i flere år. Foto: Eivind Torgersen, UiO
Eivind Torgersen, titan.uio.no
2. nov. 2024 - 13:00

Seksjonen Fra forskning består av saker som er skrevet av ansatte i Sintef, NTNU, Universitetet i Oslo, Oslo Met, Universitetet i Agder, UiT Norges arktiske universitet, Universitetet i Sørøst-Norge og NMBU.

Koding og programmering blir stadig viktigere for forskere innenfor de fleste disipliner. Også for biologer, selv om DNA-dataene de jobber med gir litt ekstra hodebry.

– Innenfor biologien er det ofte veldig store datasett, så du må skrive ganske bra kode hvis du skal klare å analysere alt, sier Knut Rand.

– Datamaskiner er gode med tall, mens DNA egentlig er bokstaver. Dessuten er ikke alle sekvensene like lange, og da blir det en del knot, sier kollega Ivar Grytten.

I flere år har de to jobbet med å bygge programmeringsbiblioteket Bionumpy som skal gjøre det hele mye enklere og tryggere. Et slikt bibliotek samler sammen veldig mange funksjoner bak en tilsynelatende enklere kode. Det er ikke nødvendig å skrive hver eneste 0 og 1.

– I Bionumpy kan du skrive ti linjer med kode istedenfor tusen. Hver av de ti linjene peker på mer kode, men denne koden er allerede testet og verifisert, sier Grytten til Titan.uio.no.

Der inne gjøres bokstavene A, C, T og G, byggeklossene i DNA-et, om til tall uten at biologen trenger å tenke mer på det. Det ligger der allerede, skjult i de ferdige pakkene. Det som synes for brukeren, er A, C, T og G.

Prosjektleder Espen Olsen felttester internettbredbånd fra lavbanesatellitter på Svalbard.
Les også

Politiet ekstremtester satellitt-kommunikasjon

Har selv gjort tabber

De to programmererne har ikke utviklet Bionumpy bare for å være greie. De har selv deltatt i forskningsprosjekter der de har laget programmer for å analysere data fra DNA-sekvenser, så det ligger også en viss egeninteresse i biblioteket som nå presenteres i tidsskriftet Nature Methods.

– Vi prøver å gjøre det lettere å unngå tabber. Det kommer av at vi selv har sittet og gjort tabber i mange år, sier Rand.

– Ideen kom fordi vi jobbet en del på prosjekter hvor vi endte med å skrive veldig mye av den samme koden om igjen og om igjen. Selv om vi har kodet i mange år, gjorde vi ofte feil, sier Grytten.

Bionumpy har allerede vært i bruk og testet i praksis. For eksempel i utviklingen av diagnoseverktøyet ImmuneML som skal gjøre det mulig å sjekke for mange forskjellige sykdommer i bare én enkelt blodprøve.

Les mer om ImmuneML: Fra bare én blodprøve kan kunstig intelligens gi diagnose for mange ulike sykdommer

Mye dill

Rand og Grytten er tilknyttet SandveLab ved Institutt for informatikk ved Universitetet i Oslo. Der veiledes de av professor Geir Sandve. Han har lengtet etter et verktøy som Bionumpy.

Professor Geir Sandve <i>Foto:  Elina Melteig</i>
Professor Geir Sandve Foto:  Elina Melteig

– For 15 år siden trengte jeg dette da jeg jobbet med genomdata. Jeg husker at jeg tenkte at jeg skulle ønske noen lagde noe sånt som dette, sier Sandve.

Isteden ble han sittende med det han kaller «mikrodill», massevis av små programmeringsdetaljer, fremfor å kunne bruke hjernekraften på en større overordnet idé.

– Jeg vet hvor mye dill, tull, kløning og feil jeg satt med på den tiden. Det føltes veldig bortkastet å kløne med dette når jeg visste hvor mange andre som satt med akkurat den samme kløningen, sier Sandve til Titan.uio.no.

– Alt som er kvantitativ analyse av DNA eller proteiner, bør passe veldig godt inn i Bionumpy. Det er veldig hensiktsmessig og arbeidsbesparende selv for de som er godt trent i koding, sier han.

– Makten tilbake til biologene

De tre informatikerne håper nå at biologer vil ta Bionumpy i bruk. Alternativet er å skrive all koden selv eller å bruke ferdige løsninger der det meste er definert på forhånd.

– Mange biologer blir avhengige av ferdige løsninger der alle bruker det samme programmet med de samme innbakte antagelsene. Med dette verktøyet gir vi biologene mer fleksibilitet. Det gir rom for mer kreativitet, sier Sandve.

– Bionumpy gir makten tilbake til biologene. De kan selv lese inn dataene sine og analysere dem, sier Grytten.

Eksempel på bruk av Bionumpy. <i>Foto:   Skjermdump fra Rand mfl</i>
Eksempel på bruk av Bionumpy. Foto:   Skjermdump fra Rand mfl

Et programmeringsbibliotek som dette gir forskere muligheten til å gjøre mer individuelle valg basert på hvilke data de har og hva de er interessert i å undersøke. De kan sette sammen sin egen pakke, velge hvilke moduler de vil benytte seg av, uten å skrive hele koden på egen hånd.

For fysikere, for eksempel, har denne måten å jobbe på vært en selvfølge i 20 år. Endelig får biologene samme muligheter.

– Vi håper Bionumpy blir en sentral brikke når man skal jobbe med biologiske data. Vi tror dette vil bidra til at det blir lettere å gjøre analyser og at man kommer fram til riktig resultat raskere, sier Rand.

De har testet sitt eget system opp mot andre løsninger som er tilgjengelige i dag.

– Det produktet vi har laget, er ti ganger raskere enn eksisterende produkter, sier Grytten.

Saken ble først publisert på Titan.

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.