Lost in Translation

Facebook er begyndt at autooversætte statusopdateringer, og resultatet er lige dele hylende morsomt og pandeklaskende tåbeligt. Men hvorfor er oversættelserne ikke bedre?
Originalteksten lød: “Never give up on yourself. Forgiveness of ourselves is essential in our recovery process."
Originalteksten lød: “Never give up on yourself. Forgiveness of ourselves is essential in our recovery process."
For nylig rullede Facebook en ny funktion ud, hvor statusopdateringer i ens strøm automatisk bliver oversat, hvis de ikke er skrevet på dansk. Maskinoversat, forstås. Og som mange har opdaget, går det nogenlunde ... afhængigt af, hvad man vil have.
Hvis man vil have en tekst på dåsedansk, hvor man sådan-cirka forstår den overordnede mening, så fungerer det nogle gange.
 
Hvis man vil have en tekst, hvor man altid forstår alt, hvad der står, inklusive fagudtryk, ordspil og hvilket sprog, den er skrevet i med alle de signaler, det sender – seriøst, business-smart, troværdigt eller humoristisk – ja, så har man lige så meget held med sig, som hvis man vil vide, hvad der egentlig er i den her karryret:
 
 
Her er, hvad Facebooks automatiske maskinoversættelse kan præstere:
 
Originalteksten lød: “Never give up on yourself. Forgiveness of ourselves is essential in our recovery process."
 
 
 
Originalteksten lød: "She's not backing down."
 
Det er jo meget sjovt, og formålet med statusopdateringerne er jo også bare at ledsage linket til artiklen. Men med Facebooks nye automatiske maskinoversættelser er det ikke nødvendigvis indlysende, om statusopdateringer oprindeligt er skrevet på et andet sprog. Altså om man læser en dårlig oversættelse eller en virkelig dårligt formuleret originaltekst. Og det er problematisk. Se for eksempel her:
 
 
Her er det en dansk direktør, der skriver en statusopdatering på engelsk, som så bliver maskinoversat til dansk. Originalteksten starter: "3XN architects and GXN innovation have a spoken mission: to claim and own Architecture Shapes Behaviour. This is how we will walk the talk. An agenda-setting research cluster for mapping interactions between architecture and human behaviour."
 
Altså en statusopdatering, der signalerer seriøsitet og er skrevet i et velformuleret og i det hele taget sammenhængende sprog. Oversættelsen fremstår derimod som noget vrøvl, og hvis man ikke ved første øjekast opdager, at der er tale om en automatisk maskinoversættelse, ser det ud, som om han formulerer sig sjusket, forvrøvlet og useriøst. Sådan har han sikkert ikke lyst til at fremstå.
 
Men hvad skal Guldager Jensen og andre gøre, der skriver på Facebook på engelsk, men som også har danske læsere, der får opdateringerne automatisk oversat til ubehjælpeligt dåsedansk? For mange er det næppe muligt kun at kommunikere på dansk, men nu er de altså nødt til at operere med muligheden for, at deres velformulerede opslag bliver forvandlet til vrøvl.
 
Og der må være masser af engelsksprogede, der følger ikke-engelsksprogede personer og virksomheder på Facebook, der poster på både engelsk og deres eget sprog. De får nu automatisk oversat de opslag, der ikke er på engelsk. Mon de er helt på det rene med, at det er en maskinoversættelse de ser, og ikke en statusopdatering skrevet på et forvrøvlet og ubehjælpeligt engelsk med alle de negative signaler, det sender?
 
Himmelråbende uvidenhed
Det er mildest talt underligt, at Facebook tilsyneladende tror, at deres maskinoversættelse fungerer godt nok til at blive sluppet løs i fri dressur. Det vidner om en himmelråbende uvidenhed om, hvad oversættelse vil sige, og hvilket niveau maskinoversættelse befinder sig på. Og brugertest kan umuligt være noget, de beskæftiger sig med. Det er jo indlysende, at det ikke fungerer.
 
Men på den anden side er jeg mange gange blevet spurgt om, hvad jeg skal lave, når nu der snart ikke er brug for menneskeoversættere mere. Og endda om jeg virkelig oversætter? Om det ikke er maskiner, der gør det nu?
 
Det er lykkedes foretagender som Google Translate at markedsføre maskinoversættelse fantastisk godt. Det lader til, at mange (der ikke selv arbejder med oversættelse) rent faktisk tror, at maskinoversættelse fungerer glimrende, eller i hvert fald er lige på nippet til at gøre det. Endda selv om de dårlige maskinoversættelser kan ses overalt, og nu altså også i rigt mål på Facebook.
Men der er stadig rigtig lang vej igen, før maskinoversættelserne er på niveau med det, en menneskeoversætter kan præstere, og det er der flere grunde til.
 
Slagtilfælde og overskrifter
Når maskiner oversætter, oversætter de ligesom en person ville gøre, som havde en ordbog, men til gengæld var dårligt begavet, ikke kunne nogen af de to sprog og fuldstændig havde misforstået, hvad oversættelse går ud på.
 
Det første problem, maskinerne render ind i, er, at ord betyder forskellige ting i forskellige sammenhænge. Her er en automatisk oversat statusopdatering fra Tottenham Hotspurs.
 
Originalteksten lød: "GOALLLLLLLL! A brilliant header from Dele gives us a 1-0 lead on the stroke of half-time!"
 
Maskiner oversætter ud fra oversættelseskorpusser koblet med sandsynlighed. Det vil sige, at der her er sket en beregning af, at ordet "stroke" som oftest oversættes til "slagtilfælde" i det korpus af ordpar, som oversættelsesalgoritmen har adgang til. Men her indgår ordet "stroke" altså i ordforbindelsen "on the stroke of half-time", og så betyder det pludselig noget i retning af "netop som der bliver fløjtet af til halvleg".

Men for at afkode det, skal maskinen forstå, at den skal oversætte ordforbindelsen som én enhed i stedet for at oversætte "stroke" uafhængigt af de andre ord.
 
Det er indlysende for et menneske, men det er temmelig kompliceret at lære en maskine, som netop ikke er i stand til at forstå noget, men kun kan agere efter indprogrammerede regler om, hvornår "stroke" betyder "slagtilfælde", og hvornår det betyder noget helt andet, som det kræver en omformulering at formidle.
 
Et andet problem for maskinoversættelse er kontekst, og det er det, der giver oversættelsen i Tottenham-statussen af "header" til "overskrift". Jeps, "header" kan godt betyde overskrift, men det kan også betyde "hovedstød", og hvis et menneske skulle oversætte sætningen, ville vedkommende vælge mellem "overskrift" og "hovedstød" ud fra den kontekst, ordet indgår i. Og fordi det her handler om fodbold, er det rigtige valg af oversættelse selvfølgelig "hovedstød".
 
Selvfølgelig, ja, men for en maskine er det umuligt at vide, fordi maskiner ikke lige kan skimme en artikel, se på et billede og forstå, at konteksten er fodbold, og i fodbold kan et hovedstød, og ikke en overskrift, bringe et hold forud 1-0.
 
Forskellige sprog er forskellige
Et tredje problem, som maskinoversættelse har, er det, der også kaldes uoverensstemmelsesproblemet. Det består kort sagt i, at forskellige sprog er forskellige. Lad os bede Google Translate oversætte en simpel sætning til dansk:
 
 
På engelsk er der jo ét ord for ens forældres søskendes børn, nemlig "cousin", men på dansk har vi to forskellige ord for dem, som afhænger af deres køn, nemlig "fætter" og "kusine". For at kunne oversætte "Henriette is my cousin" skal man altså vide, at 1) dansk laver den skelnen, at 2) Henriette er et kvindenavn, og man skal vide, at 3) ordet "er" peger på, at de to informationer skal kobles sammen. Man skal altså ikke kun kende tilsvarende ord på det sprog, sætningen skal oversættes til. Oversætteren er nødt til at forstå, hvad sætningen rent faktisk betyder.
 
At den rigtige oversættelse af "Henriette is my cousin" er "Henriette er min kusine" er så indlysende for en menneskeoversætter, at vi knap nok tænker over det. Men for maskinoversættelse er det dybt kompliceret.
 
"Neural" maskinoversættelse på vej
Men nu er det altså ikke bare maskinoversættelse, som Facebook benytter sig af, men rigtig dårlig maskinoversættelse. Maskinoversættelse vinder frem med stormskridt i disse år, og det behøver ikke være så usselt, som vi ser det på Facebook. Det bliver brugt med succes, når det foregår inden for afgrænsede felter, der har en bestemt terminologi, og når det bliver efterredigeret af mennesker, der er specialister i netop det. For efterredigering af maskinoversættelse er selvfølgelig en faglighed i sig selv, og der bliver undervist i post-editing på universitetsniveau.
 
Der bliver også forsket massivt i maskinoversættelse, og Elsevier, som er et af de helt store forlagshuse inden for videnskab og teknologi (de udgiver bl.a. The Lancet), bragte for nylig en artikel på deres blog med titlen "Has Auto-Translation Software Finally Stopped Being So Useless?" om fremskridtene inden for feltet, og The Economist bragte forleden en interessant longread om maskinoversættelse (og talegenkendelse og sprog), både i et historisk perspektiv og i fremtiden: "Language: Finding a Voice".
 
Læs dem endelig, hvis det her er interessant. Begge artikler nævner den nye buzzword-teknologi Neural Machine Translation, og det er ret spændende, hvor langt vi kan komme med den i fremtiden.
 
"Bedøm denne oversættelse"
En anden strømning, som har stået på i nogle år, er crowdsourcing af oversættelse, og det benytter Facebook sig også af. Man bliver nemlig hele tiden bedt om at bedømme oversættelserne, og man kan endda give et bud på en bedre oversættelse. Det virker måske som en imødekommende gestus, at man sådan bliver involveret og bliver tilbudt at klikke på "Jeg har en bedre oversættelse".
 
Men der kunne også have stået "Arbejd lige gratis for os som oversætter", for det er rent faktisk det, Facebook beder folk om. Endda helt uden at interessere sig for, om dem, de får til at oversætte gratis for sig, er topprofessionelle oversættere eller det stik modsatte. Og hvis folks bud på en "bedre oversættelse" også bliver indlemmet i deres korpus, så er de altså også med til at forbedre deres oversættelsesalgoritme.
 
Forudsat at de er så gode til at oversætte, at de ikke indtaster en anden forkert oversættelse, der så kommer til at indgå i korpusset fremover og dermed forringer det. Det er interessant, hvordan det vil påvirke Facebooks fremtidige oversættelser, hvis alle kan bidrage til algoritmen.
 
Don't believe the hype!
Selv når maskinerne en skønne dag kan oversætte "Henriette is my cousin" rigtigt, er det kun, fordi den procedure, de arbejder ud fra, tager højde for, at dansk skelner mellem "fætter" og "kusine", at Henriette er et kvindenavn og at ordet "er" peger på, at de to informationer skal kobles sammen. Ikke fordi de kan forstå sætningen.
 
Og hvis Henriette så skulle vise sig rent faktisk at være min fætter, der bare gerne vil kaldes for Henriette, ja, så skal der virkelig være noget meget intelligent kunstig intelligens inde i maskinoversættelsen, for at den kan overgå menneskeoversætterens indsigt i både sprog, kultur, kontekst og alle de andre faktorer, der spiller ind på en god oversættelse.
 
Så kig godt på din maskinoversatte Facebookstrøm, og lad så være med at tro på, at maskinoversættelse er en simpel sag. Don't believe the hype! Maskiner forstår ikke den tekst, de oversætter, og det er forståelse af teksten, der ligger til grund for al god og pålidelig oversættelse.
 
Hvis du vil kommunikere noget på et sprog, du ikke selv mestrer, så få det oversat af en fagperson, ikke af en maskine. Og hvis du også er ved at blive bims af de skøre statusopdateringer på Facebook, så kan den automatiske oversættelse heldigvis slås fra én gang for alle: Klik på tandhjulet til venstre for "Bedøm denne oversættelse" og vælg så "Deaktiver automatisk oversættelse af engelsk". Herfra kan man også gå ind i "Sprogindstillinger" og vælge, hvilke andre sprog man ikke vil se oversættelser af.
 
Tak for input til vores Facebookbrugere:
 
 
 

Del artikel

Tilmeld dig vores nyhedsbrev

Vær på forkant med udviklingen. Få den nyeste viden fra branchen med vores nyhedsbrev.

Forsiden lige nu

Læs også