Bygger CPU-en inn i minnebrikkene

TOMI-prosessorene skal bli mye mer energieffektive enn dagens brikker.

Rå regnekraft er ikke alt. I CPU-markedet er energieffektivitet i ferd med å bli en svært viktig faktor, ikke bare i mobile og batteridrevne enheter, men også i datasenterne. Det er snart bare i de stasjonære pc-ene til spillentusiaster at varmeutviklingen er et mindre problem. Man setter inn noen enda større vifter og tar på seg hodetelefoner slik at man ikke hører støyen.

I datasenterne betyr dårlig energieffektivitet at man får høyere strømutgifter. Både fordi maskinvaren krever mye strøm til å utføre oppgavene, men også fordi all strømmen som brukes, omdannes til varme, som må ledes bort ved hjelp av kjøleanlegg.

I batteridrevne systemer som bærbare pc-er, nettbrett og mobiltelefoner, er strømmen en svært begrenset ressurs, så lenge man ikke har mulighet til stadig å lade opp batteriet. Men det begrenser mobiliteten. Derfor er det et stort pluss dersom databrikkene i systemet kan gjøre mest mulig per energimengde.

Dette er en område ARM har satset mye på. Derfor er selskapets teknologier nærmest enerådende i mobiltelefoner og nettbrett, et område hvor Intel ennå ikke har greid å få noe fotfeste.

Men selv med ARM-teknologi tømmes batteriet til smartmobilene sørgelig fort. Dersom noe kunne tilbudt mange ganger lenger batteritid og omtrent samme regnekraft, ville valget ha vært enkelt for mange.

Det er her amerikanske Venray Technology og selskapet TOMI-arkitektur (Thread-optimized Multiprocessor Instruction) forsøker å komme på banen. TOMI-arkitekturen innebærer at man lager en prosessorløsning hvor CPU-en plasseres mye nærmere DRAM-en enn det som er vanlig – faktisk i samme silisiumbrikke, bare atskilt med et lite og raskt cacheminne.

Som utgangspunkt for TOMI oppgis tre faktorer som begrenser skaleringen av moderne prosessorer. Det er forskeren David Patterson som er kjent for å ha identifisert og presentert disse begrensningene (se lysbilde 5 her).

«Power wall», «effektveggen», har med varmeutviklingen å gjøre. For å lage en raskere prosessor, kan man enten øke klokkehastigheten, minnebussbredden eller parallelliteten. Økt klokkehastighet betyr mer varme. Men ifølge Venray Technology betyr økt varme også at transistorens yteevne reduseres. Dermed møter man før eller siden veggen, noe CPU-bransjen gjorde allerede for en rekke år siden.

Både økt minnebussbredde og økt parallellitet betyr mer komplekse brikker, altså flere transistorere, noe som ifølge Venray Technology øker effektbruken og varmen og dermed reduserer hastigheten transistorene kan jobbe med.

Effektbruken skyldes dels at transistorer lekker strøm, som altså bare omdannes til varme, uten noen annen nytteverdi. Venray Technology kaller dette for statisk effektforbruk. Disse lekkasjene øker med klokkehastigheten og er ifølge selskapet langt større i logiske kretser, slik som CPU-er, enn i minnekretser. Dette skyldes logiske kretser er optimalisert for ytelse på bekostning av lekkasjestrømmene. Selskapet opplyser at en DRAM-transistor typisk vil være 20 prosent langsommere enn en tilsvarende stor transistor laget med en prosess for logiske kretser.

For å redusere effektbruken kan man ifølge Venray Technology redusere antallet transistorer, bruke prosessteknologier som fører til redusert lekkasje av strøm, samt å skru av deler av brikkene når disse ikke er i bruk.

I tillegg til den statiske effektbruken, kommer den dynamiske. Dette er strømmen som brukes når brikkene jobber, det vil si når det skjer overganger i tilstandene til logikken. Den dynamiske effektbruken øker ifølge Venray Technology lineært med klokkefrekvensen.

For å redusere den dynamiske effektbruken, kan man redusere antallet transistorer i brikkene, redusere lengden på interne busser, samt redusere antallet og svitsjefrekvensen til pinnene som går ut av brikken.

Pattersons andre «vegg», «memory wall», handler om forskjellen i hastigheten som minnet og logikken arbeider med. Dette blir til typisk utjevnet i dag med etter hver temmelig digre cacheminner i prosessorbrikkene. Men disse tar mye plass og består av mange transistorer som omdanner strøm til varme.

Venray Technologys tilnærming er altså å plassere prosessorkjerner svært tett innpå minnet, og å bruke typisk DRAM-prosessteknologi for å redusere lekkasjestrømmene. Dette begrenser klokkehastigheten, men selskapet hevder samtidig er veien til minnet så kort at behovet for caching reduseres kraftig.

Den tredje veggen til Patterson kalles for «ILP wall». ILP står for «Instruction Level Parallelism» og dreier seg om å kunne levere nok instruksjoner per klokkesyklus til CPU-kjernene, slik at disse alltid utnyttes 100 prosent. Det er vanligvis svært vanskelig å få til.

Skisse over arkitekturen i en TOMI-prosessor.
Skisse over arkitekturen i en TOMI-prosessor. Bilde: Venray Technology
Bilde av innmaten i en TOMI Aurora-brikke
Bilde av innmaten i en TOMI Aurora-brikke Bilde: Venray Technology

TOMI-prosessorene er svært enkle etter dagens standard. Selve kjernen består av rundt 20 000 transistorer, i tillegg til en rekke små cacheminner. Mens mange av dagens CPU-er har en temmelig dyp pipeline – Intels Atom-prosessorer skal ha 16 trinn – er TOMI-arkitekturen basert på en pipeline med bare to trinn. Med kort aksesstid til cacheminnet skal de 79 instruksjonene i instruksjonssettet kunne kjøres med full hastighet.

Ved hjelp av dette, svært brede minnebusser og flere andre teknikker som er beskrevet i dette dokumentet, skal Venray Technologys TOMI-arkitektur kunne åpne en reduksjon i effektbruken på 80 til 95 prosent, sammenlignet med konkurrerende teknologier. Samtidig skal brikkene bare koste 10 til 20 prosent av det ARM-baserte brikker og Intels Atom-prosessorer koster.

Problemet er at teorier ikke alltid virker i praksis, selv om flere av personene bak TOMI-arkitekturen har lang erfaring fra denne bransjen. Foreløpig er Venray Technologys presentasjoner først og fremst basert på teorier og antakelser. Ifølge HotHardware presenterer selskapet blant annet en ytelsessammenligning mellom et TOMI-system som det ikke engang er laget en prototype av, og en ikke-eksisterende Intel Xeon-prosessor.

HotHardwares skribent er også temmelig skeptisk til at Venray Technology har gått vekk fra omtrent alt som har blitt utviklet av avansert CPU-funsjonalitet de siste 25 årene, inkludert flyttallsenhet, avansert pipelining og enhver for for spekulativ kjøring av instruksjoner.

Skribenten mener likevel at ideen er interessant, men i praksis altfor begrenset til å kunne ta av.

Nå ser det ikke ut til at Venray Technology i første omgang vil forsøke å utfordre ARM- og Intel-teknologiene innen pc-er og mobilteknologi. Blant de potensielle bruksområdene selskapet nevner, er en Bluetooth-basert, øremontert datamaskin, datamaskin integrert i briller, datamaskiner implantert i mennesker og dyr, samt oversettere av tale og datamaskiner som kastes etter bruk. Med en forventet pris på under 1 dollar for en CPU, er dette siste eksempelet muligens noe som kan bli aktuelt i framtiden.

De to produktene Venray Technology presenterer på nettstedet sitt heter TOMI Aurora og TOMI Borealis. Aurora er ifølge EE Times en firekjernet prosessor med 64 megabyte med minne, mens Borealis har åtte kjerner og 1 gigabyte med minne. Aurora er tilpasset en 100 nanometers DRAM-prosessor og en klokkehastighet på 500 MHz. Effektbruken per prosessor skal være på 23 milliwatt.

Til toppen