Nu kan du ikke længere tro dine egne øjne

Det føles næsten som magi. Med en stribe nye digitale værktøjer kan du skabe originale billeder blot ved at indtaste en beskrivelse. Det er nemt, det er sjovt – og konsekvenserne kan blive uoverskuelige.

Hvis du kan beskrive det med ord, så kan tekst-til-billede-værktøjer som Midjourney tegne det. Billedet her er generet ud fra ordene “vending machine in desolate landscape” – “slikautomat i mennesketomt landskab”. Illustration: Søren Køhler/Midjourney

Se godt på billedet, der ledsager denne artikel.

Er der noget usædvanligt ved det?

Okay, jeg er enig i, at en tændt slikautomat, der står midt i et øde landskab, i sig selv er en smule ejendommeligt, men det er ikke dét, jeg tænker på.

Det mest usædvanlige ved billedet er nemlig, hvordan det er blevet til.

Billedet er fremkommet ved, at denne artikels forfatter har indtastet ordene “vending machine in desolate landscape” i billedgenereringsværktøjet Midjourney og ventet et øjeblik. Voila: Et billede af en slikautomat i et mennesketomt landskab!
Der er ikke tale om en sammensmeltning af to eksisterende billeder eller for den sags skyld en kopi. Billedet er et helt originalt værk, som Midjourney ved hjælp af kunstig intelligens har genereret ud fra mit beskedne input.

Det lyder måske som ren magi, eller i hvert fald som science fiction. Men i realiteten er det en teknologi, der kan benyttes nu og her af stort set hvem som helst – hvis bare man har en smartphone eller en computer og forbindelse til internettet.

Teknologien er det foreløbige resultat af næsten otte års udvikling, der indtil for nylig primært foregik bag lukkede døre hos forskningsinstitutioner og techfirmaer. Men inden for de seneste måneder er den nærmest eksploderet ud i offentligheden.

Det store etiske spørgsmål

Hvis du har en smartphone, kan du for eksempel downloade den gratis app Dream by Wombo, som ud fra simple tekstinput kan generere billeder i forskellige stilarter. Skriv for eksempel “astronaut riding a horse”, vælg stilarten “Cartoonist” og vupti: efter få sekunder har du en tegneserieagtig tegning af en astronaut på en hest – lige til at gemme på din telefon og bruge som baggrund.
Midjourney, som jeg har brugt til at generere de fleste af billederne til denne artikel, er noget mere avanceret og kan med lidt tålmodighed og omhyggelighed levere billeder, der lige så godt kunne være tegnet eller malet af en professionel, menneskelig illustrator eller kunstner.

Har du en del mere teknisk snilde, kan du installere programmet Stable Diffusion, der er væsentlig mere avanceret og kan genere en noget nær fotorealistisk fremstilling af førnævnte astronaut på hesteryg. Eller for den sags skyld af en hest og en astronaut, der gør noget usigeligt. Stable Diffusion er nemlig klassens frække dreng.

Virksomheden bag, Stability.ai, har godt nok lagt forskellige filtre ind i programmet for at forhindre, at brugerne laver billeder med for eksempel racistisk, pornografisk eller voldeligt indhold, men samtidig er hele den bagvedliggende model blevet frigivet som open source. Dermed kan alle i praksis bygge deres egen version og selv sætte grænserne for, hvordan den bruges.
Stable Diffusion er blevet selve billedet på det store etiske spørgsmål, som tekst-til-billede-teknologien uundgåeligt har rejst:

Hvordan forhindrer vi, at den bliver misbrugt? Og kan det overhovedet forhindres, nu hvor katten er ude af sækken? Det spørgsmål vender vi tilbage til.

Tidskrævende proces

Selv om teknologien er imponerende, er den langtfra færdigbagt. De genererede billeder er tit fyldt med visuelle uregelmæssigheder, og det kan kræve mange, mange, mange forsøg fra brugeren at få præcis det billede, man havde tænkt sig.
I juni havde magasinet Cosmopolitan for eksempel den første magasinforside nogensinde, der var genereret ved hjælp af kunstig intelligens. Men ifølge Karen X. Cheng, en digital kunstner, der hjalp magasinet med at lave forsiden i programmet Dall-E, krævede det en del mere end bare et knips med fingrene at få illustrationen på plads:

“Hvert forsøg tager kun 20 sekunder at generere, men det krævede hundredevis af forsøg. Timer og atter timer med generering og raffinering, før vi endelig fik det perfekte billede,” skrev hun efterfølgende på Instagram.

At dømme ud fra de sociale medier, ser det da også ud til, at størstedelen af de mange millioner brugere af tekst-til-billede-værktøjerne primært anvender dem som avancerede stykker legetøj.

Det kan dog hurtigt ændre sig, og blandt folk, der lever af at tegne, male og fotografere, er der forståeligt nok mange, som er nervøse for, hvad fremtiden vil bringe. Vil den kunstige intelligens med tiden gøre dem overflødige?

Spørger man Sean Dorrance Kelly, der er professor i filosofi ved Harvard University, er svaret et klart nej.

Kan aldrig blive kreativ som mennesker

“Et menneskes kreative bedrifter er socialt forankrede, og derfor vil de aldrig bukke under for udviklingen i kunstig intelligens,” skrev han tilbage i 2019 i et essay i MIT Technology Review:

“At sige andet er at misforstå både, hvad et menneske er, og hvad vores kreativitet kan udrette.”

Ifølge professor Kelly kan kunstig intelligens sagtens kreere værker, der på overfladen er nye og kreative – men det vil uundgåeligt være en form for efterligning. Og selv om vi i teorien kan lave en kunstig intelligens, der udtænker nye stilarter inden for billedkunst, vil de næppe få samme gennemslagskraft som for eksempel impressionisme og kubisme. Den type nybrud har altid været forankret i tiden og de sociale strømninger – de blev netop så banebrydende, fordi de dukkede op på rette tid og sted. Og det, mener professor Kelly, skal man være menneske for at kunne se.

“Det er muligt, at vi en dag vil opfatte kunstigt intelligente maskiner som så overlegne i forhold til os selv, at vi helt naturligt vil tillægge dem kreative egenskaber,” skrev Kelly:

“Men hvis det sker, vil det ikke være fordi maskinerne har overhalet os. Det vil være fordi,vi har underlagt os dem.”

I brug på nogle medier

Essayet var oprindelig skrevet som en reaktion på, at blandt andre den tyske kunstner Mario Klingmann havde brugt kunstig intelligens til at lave kunstværker, der siden var blevet solgt for ret anseelige beløb.

Fællestrækket for disse værker var, at den menneskelige kunstner havde været essentiel for deres tilblivelse – den kunstige intelligens havde ikke lavet dem på eget initiativ.

Dermed underbyggede de meget fint filosofiprofessorens pointe, og de seneste års udvikling har blot sat en tyk streg under den. Midjourney, Dream, Stable Diffusion og alle de andre tekst-til-billede-værktøjer gør ikke noget på eget initiativ. Der skal et menneske med en idé til, for at de kan skabe deres kunst.

Nogle faggrupper kan dog allerede mærke den kunstige intelligens ånde dem tungt i nakken. En del medier er allerede begyndt at bruge tekst-til-billede-værktøjer til at generere simple illustrationer, som man ellers ville købe fra et billedbureau eller bestille fra en illustrator. Herhjemme er blandt andet netmediet Føljeton og fagbladet Radiografen begyndt at bruge Midjourney til at skabe illustrationer. På begge medier er erfaringen dog, at det indtil videre kræver mange forsøg at få det helt rigtige billede ud i den anden ende.

Deepfakes og historieforfalskning

Mens det kan være slemt nok for tegnere og grafikere, at den kunstige intelligens måske en dag vil kunne overtage deres arbejde, har teknologien nogle væsentligt mere dystre perspektiver, når man ser på hele vores samfund.

Vil vi stadig kunne tro vores egne øjne, når det bliver muligt at skabe billeder – og på længere sigt film – af hvad som helst? Vil det overhovedet være muligt at skelne fake news fra real news?

Der har for eksempel allerede været en stribe uheldige eksempler på misbrug af Stable Diffusion, og flere undergrupper på onlineforummet Reddit er blevet lukket ned, fordi brugerne delte AI-generet kendisporno, såkaldte deepfakes.

Deepfakes er ikke noget nyt fænomen, men det har hidtil krævet stor teknisk kunnen at lave dem. Med tekst-til-billede-værktøjerne kan hvem som helst pludselig lave nøgenbilleder eller det, der er værre, af kendte skuespillere, politikere eller andre kendte mennesker. Og efterhånden som teknologien bliver mere moden, vil de blive mere og mere overbevisende.

Teknologien vil også kunne bruges i propaganda- og misinformationsøjemed. Man kunne for eksempel forestille sig, hvordan ét land kunne have brugt falske fotografier af overgreb på mindretal til at begrunde sin invasion af et naboland. Eller at en diktator bruger teknologien til at forfalske historien for at legitimere sit eget regime.

Kan vi stole på billeder?

Perspektiverne bliver kun endnu mere dystre, når man tænker på, at det i en meget nær fremtid formentlig også bliver muligt at genere video ud fra tekstinput.

Vi kan potentielt komme til at stå i den situation, at ingen længere vil have tillid til billeder og video som dokumentation eller bevismateriale, lyder advarslen fra Benj Edwards, der er journalist på det amerikanske teknologimedie Ars Technica:

“Jeg tror, at der kan komme en periode med generelt kaos, hvor folk ikke helt indser, hvor stor magt disse værktøjer kan give, og hvor de vil få stor negative indflydelse i de forkerte hænder,” skriver han på Twitter:

“Når støvet derefter har lagt sig, vil billeder ikke længere have dokumentarisk værdi for os. Især ikke de billeder, der er taget (eller generet) af mennesker, vi ikke stoler på. Og der vil ikke være mange, vi stoler på.”

Patroniserende og nedladende holdning

Den type kritik giver Emad Mostaque ikke meget for. Han er stifter af og administrerende direktør for Stability.ai, der står bag Stable Diffusion, og han er overbevist om, vi både som enkeltindivider og samfund sagtens kan administrere den magt, som tekst-til-billede-værktøjerne giver os.

– En vis procentdel af mennesker er simpelthen ubehagelige og underlige, men sådan er menneskeheden nu engang, sagde Emad Mostaque til tekonologimediet Techcrunch i efteråret 2022.

– Vi tror, at denne teknologi vil blive udbredt, og den patroniserende og til en vis grad nedladende holdning fra mange AI-aficionadoer udspringer af manglende tro på vores samfund, fortsatte han.

Emad Mostaque medgiver, at teknologien helt sikkert vil blive misbrugt, men han er sikker på, at det vil blive opvejet af alt det gode, den også kan bruges til. Her er det ifølge ham essentielt, at Stable Diffusion er open source, så alle i hele verden kan bruge softwaren og bygge videre på den – ikke kun dem med magt og penge.

Det er kun begyndelsen

Uanset om man ifører sig rosenrøde briller som Emad Mostaque eller ser mere dystert på fremtiden som Benj Edwards, er en ting sikker: Det, vi ser lige nu, er kun begyndelsen.

Som allerede nævnt kan næste skridt for eksempel blive AI-genereret video. Om nogle år vil det måske være muligt at fodre en kunstig intelligens med et filmmanuskript og få en færdig spillefilm med levende billeder, musik og lydeeffekter ud i den anden ende.

Man kan også forestille sig, at fremtidens computerspil kan udnytte teknologien til konstant at skabe nye og uforudsigelige udfordringer for spilleren.

Eller man kan forestille sig, at en helt ny og endnu mere banebrydende teknologi kommer ind fra højre og gør hele diskussionen om billedgenerering uvæsentlig.

Men uanset hvad der kommer til at ske, så kan vi få en forsmag på fremtiden lige nu. Hvordan ville det for eksempel se ud, hvis van Gogh havde malet Andy Warhols berømte Campbell’s-suppedåse? Og hvordan ville Empire State Building se ud, hvis den var overgroet med vedbend? Svaret er kun et par tastetryk væk.

Sådan fungerer det

Teknologien bag tekst-til-billede-generering er meget kompliceret og varerier fra værktøj til værktøj. Men groft sagt virker det på den måde, at man først fodrer den kunstige intelligens med millioner af billeder, der alle er forsynet med en tekstbeskrivelse. Derefter forsøger den kunstige intelligens at danne mønstre ud fra disse billeder, mens den løbende justerer sin metode ud fra resultatet. I nogle tilfælde lader man en anden kunstig intelligens bedømme resultaterne.
Billedgenereringen begynder typisk ikke med et tomt lærred, men med en flade af tilfældig pixelstøj. Den kunstige intelligens leder så efter mønstre i støjeN og begynder gradvis at opbygge sit billede ud fra dette.

Prøv det selv

Dream by Wombo: En simpel iOS- og Android-app, der er nem at bruge, men indimellem gange leverer nogle lidt abstrakte resultater. Kan downloades gratis i App Store eller Google Play. Mere info: www.wombo.art
Craiyon: Meget simpelt billedgenereringsværktøj, der fungerer direkte i internetbrowseren. Billederne er i lav opløsning. Baseret på Dall-E-teknologien (se længere nede). Mere info: www.craiyon.com
Midjourney: Fungerer via chatprogrammet Discord og kræver en smule tekniske snilde at få op at køre. Er især velegnet til at generere illustrationer, men er knap så god til fotorealistiske billeder. Mere info: www.midjourney.com
Stable Diffusion: Kræver en kraftig pc og stor teknisk viden at installere. Kan generere meget overbevisende, fotorealistiske billeder. Mere info: www.stability.ai
Dall-E 2: Kræver ligesom Stable Diffusion en kraftig pc og stor teknisk indsigt at bruge. Kræver desuden en invitation, som man kan skrive sig op til. Programmet kan ligesom Stable Diffusion generere billeder, der næsten ligner fotografier. Mere info: openai.com