De Kafka-kaart en andere talige mysteries

gggggtrns

Hoe een statistische bug in Google Translate bizarre situaties oplevert.

Google Translate is een van de meest gebruikte vertaalsites die er te vinden zijn op het web. Door velen worden de vertalingen die de dienst levert gezien als de meer adequate, zeker in vergelijking met sites als Babelfish (thans Bing). De reden hiervoor is dat Google niet uitgaat van een woord-voor-woord-vertaling, zoals de meeste klassieke vertaal-engines dit plegen te doen, maar omdat het nadrukkelijk kijkt naar de samenhang tussen woorden – deze techniek wordt ook wel statistical machine translation genoemd.

Met name voor vertalingen die zich binnen het domein van de Europese Unie bevinden heeft de vertaalmechaniek van Google een uitgebreide track record opgebouwd. Dit is goeddeels te danken aan het feit dat de EU een groot deel van haar documenten naar alle lidstaattalen laat vertalen, waardoor de vertaler een uitgebreide dataset tot zijn beschikking heeft waaruit het zijn algoritmische vertalingen – met schrikbarende precisie – kan samenstellen.

Buiten het EU-domein wordt het al snel wat precairder: er bestaat geen vergelijkbare overkoepelende unie die zo investeert in wederkerige (en openbaar beschikbare) vertalingen zoals de Europese Unie, dus Google moet hier wat meer te hooi en te gras te werk gaan, bijvoorbeeld aan de hand van Google Books-geïndexeerde boeken. Dit leidt bij vlagen tot hilarische technische misverstanden.

In het verlengde hiervan stuitte ik bij toeval op een merkwaardige statistische bug in de Google-algoritmes van het Chinese taalgebied. Zoals bekend werkt de Chinese taal met karakters, die ieder op zichzelf een betekenis hebben die per context enorm kan verschillen. Google heeft voor zijn vertaalfunctie besloten om ook de letters op het westerse qwerty-toetsenbord te koppelen aan de meest voorkomende, vereenvoudigde Chinese karakters. Nietsvermoedend voerde ik een Chinese site in waar ik graag de grove vertaling van wilde weten, maar toen stuitte ik op het volgende:

untitled

Hilariteit alom natuurlijk, zeker daar het een onwijs brave site betrof die niet per se (of althans niet openbaar) een schaduworganisatie voor een wereldwijd kannibalistisch netwerk vormt.

Daarom besloot ik dit maximaal uit te buiten en te kijken wat voor verborgen berichten Google Translate nog meer zoal te melden had. Hieronder wat poëtische frases die ik heb weten te vormen, die een buitengewoon vermakelijk doorkijkje geven in het semantische netwerk waar Google de mosterd vandaan haalt:

Bijvoorbeeld, althans voor mij, vet functie woorden, erkennen wij bucolische universiteit en dochter van Voltaire Oriental Plaza.

(invoer: qmwnebr; pzxuci; wesdxc rtyfghn erdf ertdfgc)

Mooie buitenissig vrouw beschermhoes warm gejuich weerklonk.

(invoer: lpofreakmnbhtreqzwsxc)

Zijn MENSENRECHTEN OP DE MENSENRECHTEN OP DE MENSENRECHTEN OP DE MENSENRECHTEN duizend mensen rijden verontreiniging verontreiniging vervuiling wrijven vervuiling ah ah ah Rub Rub werven mensen om mensen te werven om mensen te werven om mensen te werven schurk schurk schurk schurk van het opwinden van de epidemie Japanese Japanese rundvlees noodle mensen en organisaties van mensen.

(invoer: qrqrqrqrqrqrqrqrqqrqwrwrwrwrwrwrwrarararzrzrzrzrxrxrxrxrcrcrcrbrbrbrbrnrmrmtt)

Ayumi Hamasaki Ik heb geen honger, zoals primaire oppervlakkig dan de helft van zijn gedwongen om een communiqué uit te geven en ze kunnen niet helpen WBC notebook VB overschreden interne doelstellingen.

(bqbwbebrbtbybubibobpbabsbdbfbgbhbjbkblbzbxbcbvbnbmb)

U kunt het begin van de chirurgische tolerantie zien cool, maar ik zie Kafka-kaart afgegeven aan de klant gekeken naar de lachende bestaande kolenmijn.

(invoer: qkwkekrktkykukikakskdkfkgkhkjklkxkckbkmk)

Lichtjes Hardlopen met het vlees en het vlees en het vlees; teen foetus; Penetratie pap niet dezelfde wedstrijd.

(invoer: plokyurtyurtyurt;toeter;dpspapbppyy)

Ik kan rekenen op mensen om op te heffen; niemand kan vertrouwen op het lichaam afgemeerd…

(invoer: krentqlwke;mrntbykrent…)

En, tot slot, een wat langer gedicht, gevormd met alle letters van het westerse alfabet:

Ik smeek het begin begin begin begin ah ah ah ah ah belangrijkste prioriteit in
hee hee hee hee hee hee hee water van het water van het water van het genoemde water is mijn mijn mijn mijn mijn my my my my
Og Og Og Og Og Og Og Og Og het Ding Dingding Ding Dingding Ding Dingding Cai Cai Cai Cai Cai Cai
v VV VV VV VV wind heen en weer heen en weer elke dag dag dag dag dag
vrouw vrouw vrouw vrouw Staten via volkslied volkslied Baby Baby Babe babe
dat mannen en vrouwen als mannen en vrouwen, ha ha ha ha ha ha ha ha vaag zwak
Miaomiaomiao Miaomiaomiao Miaomiaomiao haastig jijiji jijiji UU UU UU UU U
III III III dichtgeknoopt dichtgeknoopt dichtgeknoopt dichtgeknoopt gesp
la la la la la la la la oh oh oh lichtjes Ohhh bang Pa Pa Pa Pa Pa Pa pops.

(invoer: qqqqqqqqqaaaaaaaaazzzzzzzzz xxxxxxxxxssssssssswwwwwwwww eeeeeeeeedddddddddcccccccc vvvvvvvvvfffffffffrrrrrrrrr tttttttttgggggggggbbbbbbbb nnnnnnnnnhhhhhhhhhyyyyyyyyy mmmmmmmmmjjjjjjjjjuuuuuuuuu iiiiiiiiikkkkkkkkk lllllllllooooooooppppppppp.)

Probeer het ook!

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s