Derfor dominerer velkledd middelklasse-ungdom bilder skapt av KI

– De blir gjort så vakre at det blir påtrengende, sier forsker Gunhild Kvåle. KI-genererte bilder har fire fellestrekk, mener hun.

– Det er slående hvordan Dall-E på den ene siden er opptatt av etnisk og kjønnsmessig variasjon, mens på den andre siden er bildene lite mangfoldige, sier professor Gunhild Kvåle. Dette illustrasjonsbildet er laget av kunstig intelligens. Foto: ChatGPT/Dall-E 3

Walter N. Wehus, Universitetet i Agder

27. okt. 2024 - 05:00

Seksjonen Fra forskning består av saker som er skrevet av ansatte i Sintef, NTNU, Universitetet i Oslo, Oslo Met, Universitetet i Agder, UiT Norges arktiske universitet, Universitetet i Sørøst-Norge og NMBU.

Har du brukt kunstig intelligens (KI) en stund, har du kanskje lagt merke til at både tekstene og bildene den lager kan være litt generelle og glatte. Noen vil kalle det sjelløst.

Eller, som professor Gunhild Kvåle ved Universitetet i Agder uttrykker det:

– Chat GPT har en stemme som gir meg en særegen kløe.

Sammen med kollega Gustav Westberg ved Örebro Universitet i Sverige har hun undersøkt hvordan KI-verktøyet Dall-E 3 skaper bilder av tenåringer. Dall-E er et bildeverktøy som er innebygget i Chat GPT.

Et av målene var å finne ut hvor denne kløen kom fra. Hva er det som skaper denne kunstige kvaliteten i KI-bilder?

De fant ut at bildene har fire fellestrekk. Noen av dem gir grunn til bekymring, mener forskerne.

Mangfold på overflaten

– Bildene gir inntrykk av å være autentiske, men gjennom konteksten blir disse ungdommene også plassert sosialt, påpeker Gunhild Kvåle. Hun er visedekan for forskning på UiAs fakultet for humaniora og pedagogikk. Foto: UiA

– Det er slående hvordan Dall-E på den ene siden er opptatt av etnisk og kjønnsmessig variasjon, mens på den andre siden er bildene lite mangfoldige, sier Kvåle.

For å få et representativt utvalg bilder å sammenligne, brukte forskerne generelle formuleringer som «lag bilder av tenåringer». De ba også KI-en selv om å lage tekstkommandoer, eller prompts, for å generere bildene.

– Du ser at tenåringene på bildene skal representere ulike etnisiteter. Det var også slående hvor sterkt mangfold ble understreket når Chat GPT skrev prompts selv, sier Kvåle.

Dette tyder på at selskapene bak teknologien har tatt til seg kritikken om manglende mangfold i tidligere versjoner.

Men:

– Ungdommene på bildene er slående like. Alle har jeans og Converse-sko, de er vakre, med nydelige ansiktstrekk og voluminøst hår, ingen har kviser. Dette er én bestemt sosial kategori av unge, vellykkede, vakre tenåringer, sier Kvåle.

Glede selger

Den andre fellesnevneren var at bildene er svært positive. Ungdommene gjør lekser sammen, er på konserter, griller marshmallows, eller – absurd nok – samarbeider om en nabolagshage.

– Alle er glade på bildene, ingen er triste. De driver med aktiviteter som er verdsatt av storsamfunnet. Men ingen av bildene viser dem på jobb eller mens de sover. Dette er fritiden til ungdommer i den øvre middelklassen, sier Kvåle.

Det er også noen normer skrevet inn i denne positive fremstillingen. Alle personene er tynne, og selv ikke direkte prompts kunne endre dette.

– Teknologien setter tydelige rammer for hva slags bilder det er mulig å lage. Det er ikke bare positivt, selv om intensjonene er gode. Vi kan se det i sammenheng med kulturen vi lever i, hvor tekster og bilder vi sender ut, ikke bare skal informere saklig, men også promotere oss selv.

Nesten ekte, men ikke helt

Kvåle peker på at lyssettingen og hvordan ting plasseres i forgrunnen eller bakgrunnen, etterligner fotografiet. Dette var den tredje fellestrekket de fant.

Stedene i bildene kan være en park, ungdomsklubber, konsertscener eller et rotete ungdomsrom.

– Bildene gir inntrykk av å være autentiske, men gjennom konteksten blir disse ungdommene også plassert sosialt. De vises aldri på jobb eller i urbane områder med sosiale problemer, sier hun.

Fantasiens begrensninger

Den fjerde tingen forskerne fant, er hvordan KI kan vise fantasifulle situasjoner. Blant eksemplene er ungdommer som skater inne i en snøkule på Nordpolen.

Likevel er ikke dette normen i Dall-E, det er noe man aktivt må be om.

– Fotorealistiske bilder er åpenbart det foretrukne fra Dall-Es side. Noen ganger blir de til illustrasjoner, men fotorealisme er tydeligvis standarden.

Kritisk oppmerksomhet

Bildegeneratorer som Dall-E 3 har blitt svært gode og er tilgjengelige for alle. Likevel drukner vi ikke i KI-genererte bilder. Det er faktisk overraskende lite av det, mener Kvåle.

– Det sies at alt blir endret av kunstig intelligens, men det stemmer jo ikke. Redaksjoner, kommunikasjonsavdelinger og institusjoner har bransjestandarder. Alt forandrer seg ikke over natten bare fordi det er mulig, sier hun.

Samtidig ble forskerne overrasket over hvor like bildene var.

– Tjenester som Dall-E kan ha en sterk påvirkning på den visuelle kulturen vår. Vi skylder hverandre å ha en kritisk oppmerksomhet på disse bildene, for det er ikke slik vi ønsker at samfunnet vårt skal se ut, sier Kvåle.

– Og det gjør verden litt kjedeligere.

Artikkelen ble først publisert på UiA.no