Den pågående, galopperende utviklingen innen kunstig intelligens har i tillegg til språkmodeller som ChatGPT også gitt oss potente bildegeneratorer. OpenAI har tidligere lansert sin egen bildegenerator, kalt Dall-E 2, men nå har selskapet kunngjort oppfølgeren.

Dall-E 3 er navnet på OpenAI sin nye bildegenerator, og denne skal gjøre det vesentlig enklere enn før å generere svært detaljerte og/eller realistiske bilder ved hjelp av tekstkommandoer.

Bygger på ChatGPT

Den store nyheten denne gangen er at Dall-E 3 bygger på ChatGPT. Dette innebærer at bildegeneratoren fungerer mye mer som en samtalepartner som i langt større grad enn før skal «guide» brukeren til å skrive effektive tekstkommandoer. Den skal også være langt mer presis i hvordan den følger kommandoene.

– Moderne tekst-til-bilde-systemer har en tendens til å ignorere ord eller beskrivelser, og tvinge brukere til å gjøre tekstkommandoer til en ingeniørkunst. Dall-E 3 representerer et sprang fremover i vår evne til å generere bilder som holder seg nøyaktig til teksten du gir, skriver OpenAI i sin egen markedsføring av den nye generatoren.

Bildet til venstre ble laget med Dall-E 2, og bildet til høyre ble generert av Dall-E 3 med akkurat den samme tekstkommandoen. Som man kan se er detaljnivået merkbart høyere. Foto: OpenAI

Ifølge OpenAI vil ChatGPT automatisk lage skreddersydde, detaljerte instrukser til Dall-E 3 som skal bringe ideene til brukeren til live visuelt. På samme måte som med den «vanlige» ChatGPT-tjenesten, kan brukeren med få ord be språkmodellen om å gjøre mindre endringer dersom man liker et bilde, men ønsker å rette på deler av det.

Mer detaljer – med samme instruks

OpenAI sier at Dall-E 3 vil gi deg betraktelig mer detaljerte bilder enn forgjengeren, selv med de samme tekstinstruksene. På nettsidene sine la selskapet ut et eksempel på et bilde generert av Dall-E 2 og et annet laget av Dall-E 3 med akkurat den samme instruksen, og forskjellen er ikke rent liten.

Dall-E 3 vil bli tilgjengelig for ChatGPT Plus- og Enterprise-brukere tidlig neste måned, så generatoren blir med andre ord ikke tilgjengelig i gratisversjon. Som med forgjengeren er alle bildene som genereres dine, og ingen tillatelser trengs for å skrive ut, selge eller på annen måte kommersialisere kreasjonene.

Bildegeneratorer basert på kunstig intelligens og tekstkommandoer begynner å bli tallrike. Microsofts egen søkemotor Bing har fått en egen bildegenerator som tidligere i år ble integrert i søkemotorens samtalemodus, som gjør det mulig å skape både skriftlig og visuelt innhold på samme sted. Bildegeneratoren i Bings samtalemodus støtter nå også rundt 100 språk – inkludert norsk.

I tillegg har Google sin egen bildegenerator, kalt Imagen, men denne er enn så lenge ikke tilgjengelig for offentligheten.