Lær at tale med din AI

AI-revolutionen er i gang på flere fronter. Én front har noget at gøre med, at modellerne med stor hast bliver bedre og bedre. En anden front udvikler sig mod, at flere og flere mennesker har adgang til disse modeller – altså en demokratisering af en ny teknologi. En tredje front er en social bevægelse, der er ved at lære, hvordan vi bedst kommunikerer med AI-modellerne for at få dem til at gøre præcist det, vi ønsker. Det er sidstnævnte front, denne artikel vil omhandle.

I stigende grad er det muligt simpelthen at kommunikere med AI-modellerne i et naturligt sprog via en såkaldt prompt. Med andre ord: Des mere komplekse modellerne bliver i deres kapacitet, des mere lettilgængelige bliver de at bruge.

Med en enkelt hage. For modellerne forventer ikke nødvendigvis et helt naturligt sprog i prompten. Mere præcist forventer de at blive talt til i et sprog, som AI-researchere og -brugere først nu er ved at lære. Dette sprog er hverken computersprog eller et helt normalt sprog. Det er et sted midt imellem. Og hvis man vil have de bedste resultater ud af AI-modellerne, så er det nødvendigt at lære det sprog. Inden for de seneste år er der opstået et helt felt inden for AI, som udelukkende fokuserer på at lære det nye sprogaspekt: prompt engineering.

Tag ingeniørhatten på

Skriver man “prompt engineering” ind i Google Scholar, en database over akademiske artikler, får man 431 resultater, 234 af dem blot fra 2022. Prompt engineering er hurtigt ved at blive til en videnskab i sig selv. I sin mest simple form forsøger prompt engineers, eller prompt-ingeniører, at bygge bro mellem menneske og computer ved at finde ud af, hvilket sprog AI-modellerne tænker i.

Følgende eksempel kan virke omsonst, men det er med til at illustrere et af de vigtigste resultater inden for feltet: Hvis ikke AI’en leverer det ønskede resultat, er det så, fordi den ikke er kapabel, eller er det, fordi jeg ikke kommunikerer godt nok til AI’en?

Den velkendte AI-model GPT-3 er dygtig til det meste, men kan fejle i selv de mest simple opgaver. Beder en bruger GPT-3 om at skrive ordet “Kommunikationsforum” bagfra (via deres frit tilgængelig app), så spytter den følgende ud:

GPT-3 har svært ved at skrive baglæns…

Som det ses på billedet formår GPT-3 at skrive den sidste del af ordet baglæns – “forum” bliver til “moruf” – men herefter går det galt. Årsagen er simpel: GPT-3 tænker ikke i ord, men i såkaldte “tokens.” I dette tilfælde er de to tokens “kommunikation” og “forum”, og det er årsagen til, at AI’en ikke kommer længere end det første ord.

Spørgsmålet er, om prompten kan skrives på en måde, som er tættere på, hvordan AI’en tænker. Peter Welinder fra OpenAI har fundet en – ganske vist omstændig – løsning, som består i at få AI’en til at se hvert bogstav som en token.

Med lidt seriøst prompt-ingeniørarbejde er det muligt at få GPT-3 til at skrive ord baglæns.

Den metode, Peter Welinder brugte, kaldes few-shot -æring, og det er et af de bedste redskaber i prompt-ingeniørens håndbog. Metoden består i at fortælle AI’en, hvordan den skal tænke via et par eksempler. Hvis ikke AI’en styres ret kraftigt af en præcis prompt, så vil resultatet være derefter. Den alternative metode, som nok er den mest intuitive, kaldes zero-shot-læring. Hvis man forsøger at få GPT-3 til at skabe interessante startup-ideer, som bloggeren Andrew Cantino har gjort, via en zero-shot-prompt, er AI’ens svar forståeligt, omend uinteressant:

Startup-ideer via zero-shot-læring. Ikke så vellykket…

Few-shot-metoden giver et mere interessant resultat.

Hvis du ønsker at bruge GPT-3 i dit arbejde, er det bedste råd at guide modellen mod en ønsket form og dermed skærme og begrænse modellens svarmuligheder. Hold i baghovedet, at AI’en har meget svært ved at vide, hvad du ønsker af den, hvis ikke du giver den en præcis, udførlig prompt, gerne med et eller flere eksempler. Few-shot-læring er den mest effektive metode i prompt-ingeniørens GPT-3-håndbog til det formål, men det er ikke den eneste. Følgende link giver en udførlig introduktion til forskellige prompt-metoder inden for tekstgenerering.

Når det kommer til billeder, er det endnu vigtigere at tage ingeniørhatten på.

Billeder giver clicks

Blogposts med billeder får over dobbelt så mange views, men billederne behøver ikke være betalt for i dyre domme hos Shutterstock. Folkene bag Deephaven erstattede alle deres eksisterende thumbnails med AI-genererede thumbnails for blot 45 dollars. Det kan dog også gøres gratis. Til sidst i denne artikel er der en liste over de bedste AI-billedmodeller.

AI-billedmodeller er, præcist ligesom GPT-3, sensitive over for variationer i prompten. Spørgsmålet er igen: Hvordan tænker AI’en? Eller mere præcist: Hvad ser en AI-billedmodel i et billede? AI-brugeren pharmapsychotic har skabt et værktøj, der svarer på præcist det spørgsmål. Værktøjet hedder CLIP interrogator, og det kan prøves via følgende Google Colab-link. Via linket uploader du et hvilket som helst billede, og så fortæller værktøjet i rangeret rækkefølge, hvilke ord modellen forbinder med det billede. Herudfra skaber modellen et eksempel på en prompt, der afspejler billedet. Nedenfor er et eksempel på en prompt, AI’en forbinder med et billede af Mette Frederiksen.

a woman in a black shirt posing for a picture, a character portrait by Elfriede Lohse-Wächtler, unsplash, de stijl, wimmelbilder, studio portrait, uhd image

Beder vi f.eks. den populære AI-model Midjourney om at skabe et billede ud fra samme prompt, skulle resultatet gerne udvise en vis lighed med billedet af Mette Frederiksen.

a woman in a black shirt posing for a picture, a character portrait by Elfriede Lohse-Wächtler, unsplash, de stijl, wimmelbilder, studio portrait, uhd image

Billederne er ikke ens, men kigger man på prompten, så afspejler begge billeder de enkelte beskrivelser. Der er tale om et portræt af en kvinde. Hun poserer for kameraet. Hun har en sort trøje på. Billedet er – mener modellen – sammenligneligt med malerier af kunstneren Elfriede Lohse-Wächtler. Unsplash er en hjemmeside med stockfotos – altså flotte, polerede billeder. De stijl er en hollandsk abstrakt kunstbevægelse, som fokuserer på rene geometriske linjer og klarhed. Den sidste term, “Uhd image”, refererer ganske enkelt til opløsningen af billedet, altså Ultra HD.

Prompt-strukturen, som CLIP Interrogator giver, fortæller en række ting om, hvordan modeller såsom Midjourney tænker, og dermed også, hvordan den menneskelige prompt-ingeniør bør tænke. For det første tænker modellen i keywords nærmere end hele sætninger. For det andet tænker modellen meget præcist. Både indhold og stil er udførligt beskrevet. For det tredje ved modellen rigtigt, rigtigt meget om eksempelvis forskellige kunstbevægelser. Det leder til et problem: Hvordan kan man sætte ord på noget, man ikke kender til? CLIP Interrogator kan trods alt ikke hjælpe dig med at sætte ord på de billeder, du har i dit hoved.

Prompt engineering er et socialt fænomen

Sidste år var ordet “unreal engine” pludselig at finde i prompts overalt på nettet. Årsagen? De billeder, som kreeres i Unreal Engine, er de mest avancerede fotorealistiske computergenererede billeder, der findes, og da AI-modeller er trænet på billeder på nettet, kender modellen til alt om Unreal Engine. Og så snart én bruger havde set, hvad det kan gøre ved et billedes kvalitet at inkludere “Unreal Engine” i prompten, så følger resten af den sociale medieverden med. Prompt engineering er et socialt fænomen, hvor tips og tricks spreder sig med lysets hast i forsøget på i fællesskab at lære et nyt sprog. CLIP Interrogator og lidt fodersøgen på nettet efter gode prompt-termer kan ofte være nok.

Et forsøg på at finde den perfekte prompt

Vage beskrivelser kan af og til give interessante resultater, men ofte vil en præcis prompt, som inkluderer termer, du har hentet enten fra nettet, CLIP Interrogator eller en prompt-bog, give et bedre resultat. Nedenfor er Midjourneys bud på et billede, der viser vigtigheden af at spise frugt og grønt hver dag, ud fra en vag prompt.

En vag prompt til Midjourney: An image that signifies the benefits of eating vegetables every day

Gives en mere præcis prompt, som oven i købet indeholder en række fagspecifikke termer og primært er skrevet i keywords, er resultatet bedre.

En mere præcis prompt: a bowl of fruit is shown on a white background, a still life by Ditlev Blunck, shutterstock contest winner, photorealism, ray tracing, vray tracing, photoillustration

Hvad end der er tale om tekst- eller billedmodeller, så forventer AI’en, at du taler til den i et præcist sprog. Jo mere du nudger AI’en i en konkret retning, jo bedre bliver slutresultatet. Nedenfor følger et par links, hvor du kan læse mere om prompt engineering-fænomenet og prøve forskellige AI-modeller.

Nyttige links:

AI-modeller

Den bedste billedemodel lige nu, DALL·E 2, er for øjeblikket kun tilgængelig for et begrænset antal. Du kan ansøge om adgang her. Midjourney er også en af de bedste, og den kan prøves i en betaversion her. En frit tilgængelig billedmodel kan du finde via MindsEye.

Derudover er det værd at nævne, at virksomheden Stability.ai om få dage udgiver deres model Stable Diffusion, som efter sigende er både frit tilgængelig og på niveau med DALL·E 2. Følg med her.

Tekstmodeller
Når det kommer til tekst, så er det bedste valg OpenAI’s GPT-3. Den kan du prøve her.

Yderligere læsning/lytning om prompt engineering

Prompt-bog til billedmodeller

YouTube-video

Blog-post

CLIP Interrogator

Guide til GPT-3-prompts