Audio deepfake giver lyd fra sig nu

Verden og virkeligheden bliver mere og mere kunstig. Ingen kan længere skelne originalen fra kopien. Du har nok hørt og læst om deepfakes. De kunstigt skabte fake videoer med kendte mennesker. Senest prøvede Putin uden held at sprede en deepfake af Ukraines præsident med et budskab om overgivelse. Det nye er audio deepfakes. Nu er det lyd og stemme, som er 100 % fake. Metoden er at digitalisere, genskabe og manipulere kendte menneskers stemmer digitalt til fri afbenyttelse af alle på nettet. Audio-teknologien er nu så langt, at du kan få lige fra Hitler til Churchill, Obama og Mike Tyson til at sige hvad som helst. Det giver nye svimlende muligheder for manipulation og iscenesættelse. Senest har en instruktør genskabt Andy Warhols stemme for at bruge denne deepfake audio i en Warhol-dokumentar. Altsammen fake og fidus, men bag legen gemmer sig såvel kommercielle som kunstneriske og politiske muligheder og fare.

Man kan få meget sjovt ud af audio deepfakes. Det sjoveste er uden tvivl at få kendte mennesker til at sige ting, som de aldrig ville sige eller mene i virkeligheden. Altså sige det utænkelige. Kforum har for eksempel fået fake audio-Trump til at sige, at han elsker Obama og Joe Biden. Lyt selv her. Vi fik også lige superliberalisten Ayn Rand til at sige: Jeg elsker socialisme og den store stat. Det er altsammen fra sitet FakeYou. Her er en stor samling af audio deepfake-stemmer til fri afprøvning. Her kan du få lige fra Hitler til Snoop Dogg til at sige hvad som helst. Prøv selv at udforske mulighederne her. Vi fik for eksempel Bill Clinton til at erklære sin store kærlighed til Kforum.

Nyd også Bill Clintons bløde smørstemme i eksemplet herunder fra YouTube, hvor han helt mod sin viden og vilje er blevet rapper.

Bill Clinton “rapper” "Baby Got Back"

Hvad kan audio deepfakes bruges til for alvor?

Teknologien kan selvfølgelig bruges til andet end fis og ballade på internettet. Den har nemlig også en lang række kommercielle og kunstneriske muligheder. Et godt eksempel er, at man kan genskabe stemmer fra mennesker, der er gået bort, og få dem til at tale. Man genskabte fx Andy Warhols stemme til udstillingen The Andy Warhol Diaries. Man kan bruge det i retning af PR-stunts, hvor man fx tiltrækker sig opmærksomhed ved at genskabe stemmer fra fordums tid. Man kan naturligvis også indlæse bøger med en mere personlig stemme. Man kan på sigt skabe sin egen deepfake- eller personaliserede digitale assistent-stemme. Og så selvfølgelig i alle de tilfælde, hvor en chef eller anden vigtig person slet ikke har tid til at tale selv. Så opbygger man en bank af vedkommendes stemme og får derefter talesyntesen til at læse lige præcis det budskab op, man ønsker.

Med deepfakes bryder man dokumentarens grundlov, og det må man ikke. Det skabte derfor voldsom debat og kritik, da en instruktør kunstigt genskabte kokken Anthony Bourdains stemme til en dokumentar om ham.

Månelandinger gik godt, men kunne være gået grueligt galt. Nixon holdt aldrig en tv-gravtale for de døde Apollo-astronauter, men med audio + visuel deepfake har man skabt denne kontrafaktiske historiske tale og tv-transmission. Et godt eksempel på, hvordan man kan udforske historien/vores historiebevidsthed og alle de ting, som ikke skete, men kunne være sket.

Hvad er audio deepfakes mere abstrakt forstået?

Deepfake er et generelt begreb, der dækker over syntetisk indhold, hvor aspekter af virkeligheden ændres på en måde, hvor det ikke er tydeligt for modtageren. Vi kender en del til det fra ansigter, der byttes ud. Læs fx mere i Kforum-artiklen her. Audio deepfakes er oftest baseret på en tekst-til-tale-teknologi – også kaldet syntetisk tale – hvor man skriver sætninger, som programmet læser op med den stemme, der er til rådighed. Syntetisk tale kan også blot være en generisk robot, der læser en tekst, som VoiceOver-programmet på en iPhone. Deepfake er anderledes. Det refererer generelt til kombinationen af deep learning og fake; altså, hvor en bestemt metode for at bygge algoritmer anvendes til at skabe noget nyt indhold, der manipulerer med virkeligheden. Audio deepfake er så en syntetisk stemme, der lyder helt som din, min og præsidentens eller rockstjernens. Det er conversational AI på en tilpasset og fake måde. Læs mere på Kforum om syntetiske personer her og her.

Dronning Elizabeth II læser "God Save the Queen" af Sex Pistols. Internetironi.

Ud fra et lingvistisk synspunkt er det ret interessant at se, hvor avancerede programmerne er blevet. En stemme er som bekendt bestemmelig ud fra en ret kompliceret sammensætning af udtale, fonetiske elementer af ord, overordnet prosodi i sætningskonstruktioner, ordvalg, tur-interne pauser, intonation, udstrækning eller sammentrækning af ord, betoning, rytme, toneleje, osv., osv. Nu kan en computerkode pludselig gennem en masse træning skabe noget, der ligner. Det er imponerende. Se de nyeste, overbevisende eksempler her.

Disse audio deepfake-teknologier kan lave alle slags kendte stemmer.

Hvad er teknologien bag audio deepfake?

Der findes en lang række servicer på markedet allerede for alle, som vil udforske kunstig tale. Tag fx Resemble AI, der er en tekst-til-tale- og deepfake-lydsoftware, der kan skabe lyd af høj kvalitet uden at kræve store mængder data. Man kan bruge værktøjet til at træne Resemble til at efterligne din egen stemme eller uploade forudindspillede klip. Klippene kan selvfølgelig også være af en andens stemme. Se eksempel her:

Resemble AI er en stemmekloningsløsning med kunstig intelligens, der gør det muligt at udføre talesyntese (tekst-til-tale) ved hjælp af din egen stemme.

Hvad er problemerne?

Forestil dig, at du modtager et telefonopkald fra din chef, der anmoder om at overføre 500.000 kr., for at en konto kan blive lukket. Du finder for sent ud af, at det opkald, du modtog, ikke var din chef, men en syntetisk, falsk stemme skabt ved hjælp af kunstig intelligens. Problemerne er uendelige: Hvad er sandheden? Kan man stole på det, man hører? Hvor er de skjulte bias? Tillid bliver fundamentalt sat på prøve, når vi har med syntetiske fakes at gøre. Helt nye, mærkelige spørgsmål, såsom om en syntetiske stemme har ytringsfrihed – som det fx undersøges i dette paper. Den bedste vej at gå er derfor nok at anvende teknologien rent deskriptivt og helt neutralt som en tydeligt markeret og kommunikeret kunstig stemme – en såkaldt custom neural voice.

Er fremtiden custom neural voice?

Custom neural voice er en tekst-til-tale-funktion. Microsoft arbejder med dem, hvilket du kan læse om her. Det handler om at skabe en unik, tilpasset, syntetisk stemme. Med custom neural voice kan man bygge en naturligt klingende stemme ved at levere udvalgte lydeksempler som træningsdata. Altså, man faker dermed ikke længere andres stemmer, men bygger sin egen unikke syntetiske stemme, der lyder som en menneskelige stemme med intonation, toneleje osv., osv.

Idealet er etisk korrekt deklareret konversational social audio

Teknologien giver mange uhyggelig muligheder for svindel og identitetstyveri / “ stemme” tyveri. Fremtiden for social audio er derfor forhåbentligt en kombination af tillidsfulde, rigtige mennesker, der taler og taler med hinanden i kombination med meget tydeligt markerede robotter, der kan bruges til fis og ballade eller seriøst til information som syntetiske stemmer. Men kodeordet er deklarationen af audio deepfake. For det er vigtigt, at audio deepfake giver lyd fra, hvor end man kan høre det.

Læs mere om audio deepfake her

Audio Deepfakes: Can Anyone Tell If They're Fake?

FakeYou

Deepfake Audio Text to Speech – An Introduction

Deepfake Video and Audio Recordings | Future Work Institute

[2111.14203] How Deep Are the Fakes? Focusing on Audio Deepfake: A Survey

Listen carefully: The growing threat of audio deepfake scams

The Anthony Bourdain audio deepfake is forcing a debate about AI in journalism

Why 'The Andy Warhol Diaries' Recreated the Artist's Voice With AI | WIRED

The Ethics of a Deepfake Anthony Bourdain Voice in “Roadrunner” | The New Yorker

“Andy Warhol Diaries” Doc Controversy: Uses AI to Recreate Artist's Voice for Fake Narration | Showbiz411