Lynrask analysemotor for datastrømmer

Finansinstitusjoner tyr til unge StreamBase for å analysere raske dataflommer i sanntid.

For flere år siden gikk det opp for Michael Stonebraker at relasjonsdatabaser ikke er i stand til å dekke et stadig viktigere behov, det vil si fortløpende analyse av store mengder data i raske flommer. Utfordringen er felles for en mengde situasjoner, for eksempel finansinstitusjoner som må avdekke tendenser mens de skjer, IT-sikkerhetsselskaper som skal analysere nettverkstrafikk, generaler som skal holde rede på soldater og utstyr i felten, detaljister som skal få oversikt over store mengder RFID-merkede varer, prosessindustri som skal holde rede på et stort antall målinger og sensorer i sanntid, og så videre.

Stonebraker er kjent som hovedarkitekten bak to kjente databasesystemer, Ingres og Postgres, som ble utviklet ved University of California at Berkeley i de 25 årene han var professor der. For fire år siden samlet han en gruppe forskere for å arbeide med bruken av SQL til å analysere raske dataflommer i sanntid.

I 2003 grunnla han selskapet Grassy Brook som siden skiftet navn til StreamBase og fikk en profesjonell ledelse. Stonebraker er teknologisjef, samtidig som han er professor ved MIT, et av universitetene som fortsatt deltar i selskapet.

Et intervju med InfoWorld 11. januar i år var StreamBases første møte med et bredere publikum. Fram til da var selskapet kun kjent i en engere krets av IT-folk i finansverdenen, der behovet for denne type løsninger er akutt, og der det er vilje til å betale folk som viser i praksis at utfordringer er til for å møtes.

Siden detaljopplysninger fra StreamBases eget nettsted fortsatt er forbeholdt noen få, er Infoworld-intervjuet stadig den eneste pålitelige kilden til kunnskap om selskapet og dens teknologi, utenom en liten artikkel i Forbes.

Stonebraker beskriver på den ene siden en «stream processing engine» som koples på dataflommen, og på den andre en spesielt utviklet SQL-variant – StreamSQL – som brukes til å foreta spørringer mot flommen. Analysen foretas mens dataene strømmer gjennom motoren, teknologien er ikke opptatt av å lagre innkommende data noe sted. Det overlates til andre systemer, for eksempel databaser.

Relasjonsdatabaser kan brukes til fortløpende analyser av store dataflommer, men er ikke spesielt effektive. Stonebraker sier at en av implementasjonene de har laget for en finanskunde håndterer 140.000 innkommende meldinger i sekundet på en standard PC. Den samme implementasjonen i en industristandard relasjonsdatabase – Stonebraker nevner ikke hvilken – kom aldri over 900 innkommende meldinger per sekund.

Stonebraker legger vekt på at analysen krever konvertering til et spesielt format, og at også denne konverteringen skjer uten at dataflommen sinkes. Blant formatene det må konverteres fra er XML, som betraktes som alt for omstendelig for dette sanntidsformålet.

StreamBase er altså ikke et databaseverktøy, og ikke et transaksjonssystem, men et redskap for komplisert siling at store og raske dataflommer i sanntid, og følgelig et «nytt stykke systemverktøy».

StreamBase-motoren kjører i dag på Intel-maskiner under Linux og Sun-maskiner under Solaris. En Windows-utgave er under utvikling. Hittil har kundene kommet til Stonebraker med sine verste problemer, så har han brukt en ukes tid på å utvikle en prototyp for å løse dem. Kontraktene som er inngått hittil er på abonnementsbasis, og koster kunden fra 100.000 til 300.000 dollar i året.

Stonebraker ser for seg at StreamBase vil bevege seg til andre målgrupper i løpet av kort tid, og ser for seg anvendelser innen prosessindustri, forsvar, IT-sikkerhet, RFID og så videre. Han ser ellers for seg hvordan StreamBase kan samle informasjon fra brikkedrevne bomstasjoner for å danne seg et bilde i sanntid av trafikken, og for eksempel justere bomavgiftene løpende i tråd med trafikkbelastningen.

    Les også:

Til toppen