GPT-4 slår ChatGPT på flere vigtige parametre

I Silicon Valleys AI-community har rygtedannelsen omkring GPT-4 undertiden antaget eventyrlige dimensioner. Fjer blev ikke til høns, men f.eks. er et (forkert) diagram, der sammenligner GPT-3’s 175 milliarder parametre med GPT-4’s 1.000 milliarder parametre, blevet vist over fire millioner gange i et enkelt tweet.

OpenAI’s direktør, Sam Altman, har pure afvist tallene og gjorde det tidligt klart, at folk ville blive skuffede, hvis de troede på det. Og i øvrigt også, hvis de troede, at det er en kunstig generel intelligens, hans firma barsler med.

"GPT-4-rygtemøllen er latterlig. Jeg ved ikke, hvor det hele kommer fra," sagde han blandt andet i et interview til StrictlyVC for en måneds tid siden.

Rygterne skyldes bl.a., at modellen reelt har været færdig siden august sidste år. Men OpenAI ville sikre sig, at den ikke løb af sporet, som vi tidligere har set det med sprogmodeller fra både Microsoft og Facebook. Derfor holdt de maskinen inden døre, mens de finjusterede og forsøgte at sikre den mod hadtale, falske svar osv. Men tirsdag aften skete det endelig: OpenAI gav adgang til den nye sprogmodel, og selvom rygterne indimellem har skudt over målet, adskiller GPT-4 sig positivt fra forgængeren på flere afgørende punkter.

Stor vægt på korrekthed

Mange hæftede sig før lanceringen ved, at den nye model ville være multimodal, og det har holdt nogenlunde stik. Frem for kun at behandle tekst kan GPT-4 nemlig også behandle billeder. Det er dog ikke det multimodale, der umiddelbart fylder mest i OpenAI’s egen præsentation. Det gør i stedet det, at GPT-4 angiveligt giver væsentligt mere korrekte svar.

Den ChatGPT, der kørte på GPT-3.5, var også – trods alvorlige fejl – utroligt stærk på fakta, men alligevel slår GPT-4 den med længder. Ifølge OpenAI’s egen evaluering er den hele 40 procent mere tilbøjelig til at give faktuelt korrekte svar end GPT-3.5. De har testet den på en hel stribe af eksaminer, og det er svært ikke at blive imponeret.

Billedet viser, hvordan GPT-4 klarer sig i en stribe standardiserede eksaminer i USA. Det betyder ifølge nogle, at GPT-4 ville kunne blive optaget på eliteuniversitetet Stanford, hvilket andre dog betvivler.

GPT-4 hallucinerer også

Selvom der således er sket store forbedringer – bl.a. hjulpet af den meget store mængde brugere, der har testet ChatGPT siden lanceringen – har GPT-4 stadig nogle af forgængerens fejl og mangler. Fejlmarginen er blevet mindre, men ifølge OpenAI kan den nye model også komme ud på dybt vand. Selvom den det ene øjeblik overlegent består en eksamen, som selv godt begavede mennesker aldrig ville komme i nærheden, kan den stadig i næste øjeblik forkludre grundlæggende regnestykker eller hoppe af sporet og skrive ting, der ikke er begrundet i data.

Fænomenet kaldes at hallucinere, og det har skabt irritation hos branchefolk og begrundet usikkerhed hos brugere, som har forsøgt at benytte ChatGPT til professionelle formål og research. På den baggrund råder OpenAI fortsat brugerne til at omgås modellens svar med omtanke.

OpenAI’s direktør, Sam Altman, forsøger da også at nedtone folks forventninger i sit første tweet om den nye GPT:

“Den er stadig fejlbehæftet, stadig begrænset, og den virker stadig mest imponerende ved første brug, end den gør, når du har brugt mere tid med den.”

Ikke desto mindre er modellen altså blevet væsentligt styrket på flere områder. GPT-3.5 er f.eks. ud fra min egen erfaring meget utroværdig i forhold til at henvise til ikkeeksisterende weblinks, opdigtede forskningsresultater og titler på medicinske forskningspublikationer, der ikke er at finde hverken på internettet eller i relevante databaser. GPT-4 har til gengæld ramt plet i samtlige forsøg, jeg har gjort indtil nu. Naturligvis skal der nok komme rigeligt med eksempler på fejl, når maskinen for alvor bliver trykprøvet af dygtige branchefolk i stor skala, men førstehåndsindtrykket er meget lovende.

Går vi skridtet videre end det basalt faktuelle, giver OpenAI selv nedenstående eksempel på, at GPT-4 er blevet bedre til at ræsonnere end sin forgænger (bemærk, at de ofte i sammenligningerne kalder GPT-3 / GPT-3.5 for ChatGPT. I praksis rummer ChatGPT nu både GPT-3.5 og GPT-4 efter eget valg).

Større kreativitet

OpenAI gør generelt et stort nummer ud af, hvor ansvarlig en virksomhed de er. I dette lukkede forum kan jeg imidlertid afsløre, at ansvarligheden ikke synes at dække os, der på den ene eller anden måde er glade for at kunne leve af at kommunikere. Et andet fremhævet element hos OpenAI er således GPT-4’s stærkt forbedrede sproglige kreativitet.

Kreativitet er ikke nogen oplagt størrelse at evaluere på kvantitative parametre, så et objektivt svar får vi ikke, men lad os tage et enkelt eksempel fra en, der ved, hvad han taler om. Shlomo Genchin vandt sidste år den eftertragtede D&AD Award, som netop handler om kreativitet, og han er imponeret. Nedenfor kan du se et eksempel på, hvordan han fik de to sprogmodeller til at løse samme kreative opgave. Mens man nok stadig kan diskutere kvaliteten, er det svært ikke at få øje på forskellen. Bemærk f.eks., hvordan GPT-3.5 forholder sig langt mere tekstnært til opgaven end GPT-4.

Shlomo Genchin vandt sidste år den eftertragtede D&AD Award og delte denne lille kreative battle mellem GPT-3.5 og GPT-4. Døm selv, hvem der gør det bedst.

Lange prompts

Før vi ser på det multimodale element i GPT-4, skal vi kort forbi en anden ny feature, nemlig sprogmodellens evne til at håndtere meget store tekstinput. Den kan klare op til 25.000 ord som input, hvilket gør, at man kan bruge selv meget lange essays eller hele noveller som prompts. Til sammenligning var ChatGPT’s tidligere grænse på 3.000 ord.

Visuelt input

En umiddelbart mere synlig forskel på ChatGPT og GPT-4 er, at GPT-4 kan modtage og behandle input fra billeder.

Featuren ser imponerende ud og kan angiveligt bl.a. lave opskrifter ved at se et billede af indholdet i et køleskab. Den er dog kun tilgængelig via GPT-4’s API og vises i flere demoer, f.eks. under ”Visual input”-tab’en på produktsiden. Almindelige brugere kan således ikke uden videre benytte den GPT-4-drevne version af ChatGPT til billedbehandling.

Eksempler på applikationer

Tre af de OpenAI-partnere, der har fået adgang til GPT-4-API’et er kort beskrevet nedenfor og viser, både hvad det multimodale kan i praksis, og hvordan GPT-4 kan arbejde med store tekstmængder.

Avanceret oversættelse

Den første er sprogappen Duolingo, som hjælper med at lære nye sprog. Via Duolingo Max bliver det muligt at lære direkte gennem chat på det sprog, man ønsker at lære, og samtidig at få feedback, når man laver fejl.

Visuelt input

Næste eksempel er den danske startup Be My Eyes, som via en app forbinder blinde og svagsynede med frivillige, som hjælper med alt fra indkøb til at finde rundt i lufthavnen. Med GPT-4’s mulighed for at behandle visuelle input er de begyndt at udvikle en såkaldt Virtual Volunteer, som – angiveligt – kan give samme niveau af kontekst og forståelse som en menneskelig frivillig.

Store tekstmængder

Sidste eksempel er noget mindre almennyttigt og handler om den globale finansaktør Morgan Stanley. De besidder en enorm mængde information om alt fra investeringsstrategier til markedsanalyser. På baggrund af først GPT-3 og siden GPT-4 har de udviklet en model, som søger i den enorme informationsmængde og via en chatbot forsyner medarbejderne med den information, der er relevant for den opgave, de sidder med.

Gennemtænkt product page

Som antydet gør OpenAI et stort nummer ud af at fremstå ansvarlige. De ved, at de balancerer på en knivsæg, og at mange står i kø for at kritisere og finde fejl, mangler og muligheder for misbrug. Dette gælder i særdeleshed for deres software, men tilgangen gennemsyrer hele kommunikationen omkring den. Se blot den meget flotte product page, som er knyttet til lanceringen af GPT-4. De gode intentioner med det nye værktøj, nærmest damper ud af hvert eneste lille element på siden. Der synes ganske enkelt ikke at være grænser for, hvor meget godt den nye maskine kan gøre for verden.

Fra et dansk perspektiv kan det næsten virke for tykt, men man må give dem, at såvel designet som valget af talspersoner, kompositionen af reklamefilmen, valget af use-cases og, måske med undtagelse af Morgan Stanley, valget af kommercielle samarbejdspartnere sidder lige i skabet. Det hele er sindssygt professionelt og flot lavet.

Det er desuden værd at bemærke, at de nærmest systematisk adresserer – indimellem endda med elegant diskretion – meget store dele af den kritik, der blev rejst mod ChatGPT. Lige fra undervisningssektorens bekymringer til fake news og tidsspilde på teknologi. Angående undervisning pirrer de f.eks. fantasien hos en trængt undervisningssektor med den smukke (?) idé om at give en femteklasseelev sin helt egen personlige matematiklærer og sin helt egen personlige undervisningsplan.

Målet er, forstår man, at give alle mennesker så meget værdi som muligt, og håbet er, siger en af talspersonerne, at alle vil deltage.

(For 20$ om måneden, plus moms; bevares, træerne vokser ikke ind i himlen).

”Dårlig opførsel” og ”ulovligt indhold”

OpenAI har i deres finjustering af GPT-4 lagt stor vægt på at begrænse dens evne til at hjælpe med ting, de finder dårlige. Mens den tidlige version af modellen gerne hjalp med råd om at fremstille bomber og købe billige cigaretter, er der sat såkaldte guardrails op imod det i den version, de lancerede forleden.

At teste for, hvad der er ”dårlig opførsel” og ”ulovligt indhold”, som de kalder det, synes ikke at være helt så enkelt, som det kan fremgå. De fleste kan nok blive enige om, at bomber og cigaretter generelt er værd at begrænse, men i mange andre situationer vil skellet mellem god og dårlig opførsel være stærkt kulturelt præget. Diskussionen har da også været oppe at vende i relation til det splittede USA. De, der kan leve med tilgangen, vil dog måske finde ro i, at GPT-4 ifølge OpenAI’s interne evaluering er 82 procent mindre tilbøjelig til at svare på anmodninger om indhold, der ikke er ”tilladt”.

Ifølge Financial Times skal vi ikke føle os alt for sikker:

"[GPT-4 kan f.eks.] give råd om planlægning af angreb eller hadtale. Den kan repræsentere forskellige fordomme + verdenssyn ... den kan give detaljerede oplysninger om, hvordan man udfører ulovlige aktiviteter, herunder udvikling af biologiske våben."

Nogle har altså allerede fundet sikkerhedshuller, men baseret på OpenAI’s tilgang til den første version af ChatGPT vil de formentlig være hurtige til at rette den slags specifikke eksempler. Det betyder ikke, at der ikke kan rejses rigeligt med andre etiske spørgsmål omkring OpenAI’s sprogmodeller i det hele taget, men det ligger uden for denne artikels ærinde at gå dybere ind i dem.

Sådan får du adgang

GPT-4 er ikke gratis, som GPT-3.5-versionen af ChatGPT er det. Hvis du vil prøve, skal du opgradere din konto til ChatGPT Plus, hvilket koster 20$ om måneden, plus moms. Der betales per måned, og det kan opsiges løbende.

Prisstrukturen for API’et, som vi kun har omtalt overfladisk her, er anderledes. Desuden er der p.t. venteliste til at få adgang.