Kunstig intelligens forvandler nå helt enkle skisser til realistiske bilder i sanntid

Nvidia fortsetter med uforminsket styrke forskningen på neurale nettverk. Denne gangen viser det amerikanske maskinvareselskapet frem hvordan en enkel skisse kan forvandles til et landskapsbilde på sekunder.

Nok en gang benyttes «Generative adversarial network»-teknikken (GAN). I korte trekk betyr det at forskerne setter sammen kunstige bilder ved å bruke to nevrale nettverk der det ene nettverket forsøker å «lure» det andre med syntetiske bilder.

GauGAN

Nyvinningen har fått navnet GauGAN etter den franske 1800-talls impresjonisten Paul Gauguin. Nvidia ser for seg at GauGAN kan brukes som et kraftig verktøy for arkitekter og byplanleggere når de en gang skal designe fremtidens byer.

Artikkelen fortsetter etter annonsen

annonsørinnhold

Gi hjemmekontoret et løft med riktig videomøteutstyr

Selskapet mener teknologien kan bidra til å gjøre det enklere å teste prototyper og ideer. Nvidia mener også at veien fra planleggingsstadiet til ferdig produkt blir kortere når designerne slipper å lage avanserte skisser i prosjekteringen.

– Systemet er i stand til å forvandle skissene til realistiske bilder på sekunder, sier visedirektør Bryan Catanzaro ved Nvdias avdeling for kunstig intelligens til eget nettsted.

(artikkelen fortsetter under)

30 000 bilder

Dette er ikke første gang digi.no skriver om GAN-nettverk. Allerede i 2017 kunne vi fortelle om teknologien som Nvidia har gått i bresjen for.

Den gangen brukte Nvidias-forskere 30 000 bilder av kjendiser for å produsere realistiske menneskeansikter. Senere har teknologien blitt forbedret, og i desember i fjor presenterte selskapet nok et fremskritt med GAN-teknologien.

Da hadde Nvidia-forskerne bygd opp en database med 70 000 bilder for å lage fotorealistiske menneskeansikter.

Legger ut kildekode

Denne gangen har maskinvareprodusenten virkelig slått på stortrommen og brukt én million landskapsbilder for å trene opp GauGAN.

Sluttresultatet av forskningsprosjektet skal presenteres på The Computer Vision Foundations sommerkonferanse som arrangeres i Long Beach, California i juni.

Der vil det også være mulig å teste teknologien.

Det er Nvidia-forskerne Taesung Park, Ming-Yu Liu, Ting-Chun Wang og Jun-Yan Zhu som står bak nyvinningen. De skriver i sammendraget av prosjektet at de kommer til å publisere kildekoden til GauGAN på sin Github-side i nær fremtid.

Visedirektør Gatanazare i Nvidia sammenligner teknologien med en magisk pensel som fyller inn alle nødvendige detaljer for brukeren.

– GauGAN syr ikke sammen allerede eksisterende bilder. I realiteten skaper vi nye bilder nesten på samme måte som en kunster gjør når de maler et bilde, sier Bryan Catanzaro til eget nettsted.