Tilpasning av video til annet bredde-høyde-forhold med Discontinuous Seam-Carving. (Bilde: Google Research)

Ny teknikk tilpasser videoen til skjermen

Google-utviklet algoritme kan bety «farvel» til blant annet «letterboxing».

Både video og skjermer som man benytter til å se videoene på, kommer i forskjellige størrelser og ulike forhold mellom bredde og høyde. Mange har i dag en bredskjerm med forholdet 16:9 mellom bredde og høyde, mens mye video, for eksempel ens egne gamle videoopptak har forholdet 4:3. Mye spillefilm kommer dessuten i formater hvor bredde/høyde-forholdet er enda større.

Det finnes flere løsninger når skjerm og video ikke har samme bredde/høyde-forhold. Den ene kalles letterboxing eller pillarboxing og innebærer at hele bildet vises på skjermen med riktige proposjoner, men samtidig legges det en sorte felter enten over og under, eller på hver side av bildet, avhengig av om bredde/høyde-formatet til filmen er større eller mindre enn det til skjermen.

En annen teknikk kalles pan-and-scan. Da beskjæres bildet slik at det passer på skjermen, men med fare for at vesentlige detaljer i bildet blir borte. En tredje teknikk er strekking av bildet, men da beholdes ikke proposjonene til bildet.

Forskere har i flere år forsøkt å finne en løsning som gjør det mulig å endre bredde/høyde-forholdet til film uten de ulempene som er nevnt over. Sist ut er Google Research, som sammen med Georgia Institute of Technology (Georgia Tech) har utviklet en algoritme som skal fungere bedre enn tidligere forsøk.

Tilpasning av video til annet bredde-høyde-forhold med Discontinuous Seam-Carving.
Tilpasning av video til annet bredde-høyde-forhold med Discontinuous Seam-Carving. Bilde: Google Research

Algoritmen kalles «discontinuous seam carving» fordi den forsøker å legge til eller fjerne usammenhengende «sømmer» eller kjeder med piksler. Sentralt i teknikken er å dele innholdet videoen opp i fremtredende og ikke-fremtredende innhold.

Forskerne, Matthias Grundmann, Vivek Kwatra, Mei Han og Irfan Essa, opplyser at de anser blant annet skuespillere, ansikter og strukturerte objekter som fremtredende, det vil si objekt hvor seerne forventer at spesifikke, viktige detaljer fremstår som korrekte og uendrede. Dette innholdet kan ikke endres utover uniform skalering, dersom ikke endringen skal bli lagt merke til.

Derimot er det ofte mye innhold bildene som ikke er fremtredende. Dette kan være himmelen, vann eller uskarpe ting i bakgrunnen. Dette innholdet mener forskerne at kan presses sammen eller strekkes uten at seeren legger merke til noen dramatisk endring.

Gjennom sin forskning har Grundmann og Kwatra blant annet laget en løsning som opprettholder videoens midlertidig kontinuitet i tillegg til å bevare dens romlige struktur. De har også utviklet en løsning for rom-tid-utjevning for både automatisk og brukerstyrt utvelging av fremtredende innhold, samt en bidrag for sekvensiell bilde-for-bilde-prosessering for videoer med vilkårlig lengde, inkludert videostrømmer.

Resultatet er ifølge forskerne et skalerbart system som kan målrette video som inkluderer komplekse skuespiller- og kamerabevegelser, svært dynamisk innhold og kamerarystelser. I videoen nedenfor forklarer forskerne hvordan teknikken fungerer og en rekke eksempler på hvordan resultatene kan bli, også sammenlignet med lignende teknikker.

Man kan tenke seg flere bruksområder for denne teknologien, inkludert video levert av blant annet Googles YouTube-tjeneste. Forskerne opplyser at denne algoritmen er flere ganger raskere enn tidligere teknikker, men likevel ikke høyere enn at bare to bilder kan behandles per sekund, og da med en oppløsning på bare 400 x 300 piksler. Bruk av kraftigere maskinvare kan sikkert bedre hastigheten, men det likevel er det ikke snakk om noen løsning som kan tas i bruk på koein

I stedet kan løsningen gjøre det mulig for Google og andre å tilby flere versjoner av den samme videoen, hvor de ulike versjonene er tilpasset skjermer med ulike bredde/høyde-forhold.

Les mer om forskningen på prosjektsiden.

Til toppen