Google skokově vylepšil překlad. Umělá inteligence se zakousla do češtiny

Exkluzivně   22:19aktualizováno  20. dubna 11:04
Nová generace strojového překladu je nově dostupná i pro češtinu. Překladač Google nyní využívá tzv. hlubokého učení neuronových sítí k překladu celých vět. Umělá inteligence se také dokáže učit více jazyků zároveň, a zlepšuje se tak často nečekanými způsoby. Zeptali jsme se, v čem spočívají.

Ať už chcete přeložit pár slov, vět nebo třeba celou webovou stránku, Překladač Google (Google Translate) je zdarma k službám více než miliardě lidí na celém světě. Od svého spuštění v roce 2006 postupně začal nabízet překlady mezi 103 světovými jazyky, včetně latiny a esperanta.

Google bude pro překlad do a z češtiny nově využívat neuronové sítě, které překládají text po celých větách, nikoli jen po slovech a frázích

U češtiny, slovenštiny a dalších více než dvaceti jazyků nyní Google spouští novinku - strojový překlad s využitím umělé inteligence. „Jde o největší skokové vylepšení v historii našeho překladače,“ popsal nám v exkluzivním rozhovoru Barak Turovsky, produktový manažer Google Translate. U jazyků, kde už Google novou generaci strojového překládání spustil, podle něj uživatelé zaznamenali tak významné zlepšení překladů, jako za celých předchozích deset let dohromady.

Barak Turovsky, Google

Google neprogramuje speciální algoritmy pro překlad z jednoho jazyka do druhého, protože to by při 103 nabízených jazycích ani nebylo možné. Místo toho naprogramoval neuronové sítě, které se umí učit napříč jazyky. „Není jednoduché vysvětlit, jak překlad pomocí neuronových sítí pracuje,“ říká Barak Turovsky, který vede skupinu pro vývoj Google Translate. Neuronové sítě analyzují miliony různých textů na webu a na nich se trénují, aby se neustále zlepšovaly.

Google Translate nyní překládá po celých větách i z češtiny a do češtiny
Google Translate nyní překládá po celých větách i z češtiny a do češtiny

Google Translate nyní překládá po celých větách i z češtiny a do češtiny.

Různé jazyky mají své zvláštnosti, které by bylo nesmírně obtížné programovat jednotlivě. Právě v tom spočívá síla neuronových sítí - berou v „úvahu“ miliony a miliardy příkladů a dokáží se na základě zpětné vazby neustále učit a zdokonalovat, aniž by bylo nutné (nebo možné) přesně popsat, čemu se v daný okamžik právě naučily.

Překlad z angličtiny do češtiny si nyní lépe poradí třeba s českým slovosledem. Anglické „seem to have“ proměnil na českou větu vedlejší „Zdá se, že“, kterou dal na začátek výsledného souvětí.

„Výpočet je neuvěřitelně náročný, museli jsme pro tyto potřeby vyvinout vlastní výpočetní jednotky,“ připomíná Turovsky. „Říkáme jim Tensor processing units, tedy TPU.“ Podobají se grafickým kartám, ale jsou navrženy přímo ke strojovému učení, a výrazně tak snižují spotřebu energie, což je při masivním nasazení velmi důležité.

První dojmy Překlady do češtiny jsou lepší, než jsme čekali

Google novinku spustil o půlnoci z 18. na 19. dubna, uživatelům by se měla tato možnost objevovat postupně. Nám se nové překlady aktivovaly po osmé hodině večerní. Rozdíl je patrný na první pohled.

Posuďte sami kvalitu překladu do češtiny na tomto příkladu, který jsme z angličtiny nechali přeložit do češtiny v úterý (před změnou) a ve středu, po aktivaci nového enginu Google Translate:

OriginálStarý Google Translate Nový Google Translate
We would like to try what is possible in the world of on-line translators and artificial intelligence. The new version of Google Translate utilizes deep neural networks to translate the whole sentences, not just short phrases. The neural networks analyze millions of different texts and then train themselves to perform better and better. Rádi bychom se snažit, co je možné ve světě on-line překladatelů a umělé inteligence. Nová verze Google Translate využívá hluboké neuronových sítí překládat celé věty, ne jen krátké fráze. Neuronových sítí analyzovat milióny různých textů a pak trénovat sami provádět lépe a lépe.
(8 chyb)
Chtěli bychom zkusit to, co je možné ve světě on-line překladatelů a umělé inteligence. Nová verze aplikace Google Translate využívá hluboké neuronové sítě k překladu celé věty, nejen krátkých frází. Neuronové sítě analyzují miliony různých textů a pak se vycvičí, aby mohli lépe a lépe.
(2 až 3 chyby)

Je vidět, že úskalí české gramatiky nejsou zcela překonána (shoda podmětu s přísudkem v poslední větě), ale zlepšení je patrné. Zvláště časování sloves a skloňování přídavných jmen je v nové verzi mnohem pružnější, a také volba ze synonym se nám zdá býti lepší, než ve verzi původní. A jak to vypadá při překladu z češtiny do angličtiny?

OriginálStarý Google Translate Nový Google Translate
Poplatníci jsou daňovými rezidenty České republiky, pokud mají na území České republiky bydliště nebo se zde obvykle zdržují. Daňoví rezidenti České republiky mají daňovou povinnost, která se vztahuje jak na příjmy plynoucí ze zdrojů na území České republiky, tak i na příjmy plynoucí ze zdrojů v zahraničí.Taxpayers are tax residents of the Czech Republic, if you have a residence in the Czech Republic or usually reside. Tax residents of the Czech Republic have a tax duty that covers both the income derived from sources in the Czech Republic and on income from sources abroad.
(čtyři drobné chybky)
Taxpayers are tax residents of the Czech Republic, if they are resident or usually reside in the Czech Republic. Taxpayers of the Czech Republic have a tax liability, which applies both to income flowing from sources in the Czech Republic and to income from sources abroad.
(jedna drobná chybka)

Připravili jsme si stovky vět, na kterých starou a novou verzi porovnáme (aktualizace: podrobný test si přečtěte na Technet.cz).

Při překladu z češtiny do angličtiny je síla neuronových sítí velmi patrná, protože v angličtině mají neuronové sítě k dispozici obrovské množství podkladů - mnohem větší, než v ostatních jazycích - a dokáží tak produkovat velmi přirozeně plynoucí anglický text. Při pohledu na výsledný text by vás na první pohled určitě nenapadlo, že jej psal stroj.

Překlad celých vět a frází v novém Google Translate

Výsledný text je téměř bez chyby, a dokonce celkem věrně kopíruje styl a žánr původního textu. Přesnost překladu je místy až zarážející, zvláště vezmeme-li v úvahu odlišný slovosled v obou jazycích.

Abychom lépe pochopili, v čem spočívá tato těžko uchopitelná inovace „třetí generace“, vzal nás Turovsky na krátký výlet do historie počítačových překladů.

První generace Počátky strojového překladu za studené války

Překládání textů z cizího jazyka má svůj historický původ ve zpravodajských rozvědkách. Američané potřebovali vědět, co znamenají zprávy, které odposlechli či zachytili, a hledali jednoduchý způsob, jak jejich překlad automatizovat. K tomu používali systém založený na jasně daných gramatických pravidlech, jakýchsi vzorců, do kterých pak počítač mechanicky doplňoval slova podle dostupného slovníku .

„Pravidlový systém (v originále rule-based system) přinesl první generaci strojových překladů,“ říká Turovsky. „Lingvisté sestavili jasná pravidla a ta byla rigidně aplikována na strojově překládané texty.“ Takový počítačový překladač mohl podle něj fungovat pro nějaké konkrétní věci - třeba překlad vojenského hlášení o počtu tanků. Do strojového překladu se začaly investovat nemalé peníze a vznikly i instituce, které se výzkumem strojového překladu zabývaly (viz např. zpráva ALPAC z roku 1966, PDF).

„Systém založený na rigidních pravidlech nebylo možné využít pro univerzální překlad textů.“

„Netrvalo ale dlouho - sotva třicet let - a bylo jasné, že tento přístup nelze škálovat napříč jazyky ani na bohaté slovníky. Pokud vás zajímá počet letadel a tanků, možná to stačí, ale když chcete překládat literaturu, mezilidskou komunikaci, obchodní korespondenci, tak to prostě nefunguje,“ dodává Turovsky.

Překlad textů se ukázal jak náročnější problém, než se původně zdálo. Různé jazyky totiž mají nejen různá gramatická pravidla, ale také různá synonyma, různé idiomy a spousta slov mění svůj význam v závislosti na kontextu, což systém překladu založený na striktních pravidlech zkrátka neumí postihnout.

Druhá generace Statistický model dokázal víc, než se čekalo

V 80. letech se lingvisté a počítačoví vědci pokusili s těmito problémy vypořádat prostřednictvím hrubé počítačové síly, ovšem poněkud chytřeji aplikované. Nutno dodat, že jak narůstal výpočetní výkon, dostaly se ke slovu metody, které by na počítačích z 60. let byly nemyslitelné. Jednou z nich byl statistický strojový překlad.

Představme si, že máme k dispozici text v cizím, nám neznámém jazyce. Zároveň máme ale stejný text i v jazyce, který ovládáme. Nyní se tedy můžeme pokusit rozkouskovat oba dokumenty a sestavit jakýsi slovník. Co kdybychom takových dokumentů ve více jazycích měli více? U některých slov zjistíme, že mají více překladů, jinde objevíme ustálené fráze a spojení. Čím více dvojjazyčných textů máme k dispozici, tím vyšší jistotu při svých překladech získáváme.

Překladač AltaVista Babel Fish

Tak zjednodušeně funguje statistický strojový překlad, jehož průkopníkem se stal SYSTRAN od Xeroxu (1978), který se v roce 1996 stal i prvním strojovým překladačem dostupným na webu. O rok později se překladač Systran usídlil na AltaVista Babelfish, pojmenovaném podle fiktivní rybičky z kultovního Stopařova průvodce galaxií. Na své adrese babelfish.altavista.com zůstal i dávno po konci vyhledávače AltaVista.

Také Google Translate vycházel ze statistických modelů, navržených německým programátorem Franzem Josefem Ochem, který vedl tým Překladače od jeho založení v roce 2006 až do roku 2013.

Jedním ze zdrojů dat jsou i knihy, které Google skenuje v rámci projektu Google Books. To umožňuje Googlu sledovat i vývoj jazyka.

Pro statistické překlady byl web doslova požehnáním. Na internetu Google našel nepřeberné množství textů, které musely být profesionálně přeloženy do dvou či více jazyků: směrnice, příručky, zákony, populárně naučné knihy, encyklopedie, Bible, dokumenty OSN atd. Právě jejich strojovou analýzou Google postupně vycvičil svůj statistický model. A ze stejných dat těží i jeho třetí generace strojového překladače...

Třetí generace Neuronové sítě jako „černá skříňka“

V září 2016 vývojáři Google oznámili, že představí zcela nový systém překladu, založený na neurálním strojovém učení (Google Neural Machine Translation). Šlo o výrazný krok z překládání na základě frází k překládání na základě celých vět. Své výsledky vývojáři tehdy rovněž publikovali na arXiv.org (PDF). Oproti překládání na základě frází tehdy hlásili zlepšení o 60 % na ukázkových překladech z angličtiny do francouzštiny a angličtiny do němčiny.

Co je to neuronová síť?

Umělá neuronová síť do jisté míry napodobuje způsob, jakým informace zpracovává lidský mozek

Počítačem simulovaná struktura pro zpracování dat - tzv. neuronová síť nebo umělá neuronová síť - se inspirovana u anatomie lidského mozku. Skládá se obvykle z vrstev velkého množství „neuronů“, což je samostatná jednotka, která má vstupy a výstupy. Více takových neuronů a vrstev znamená síť náročnější na simulaci (je třeba velký výpočetní výkon).

Ukázka jednoduché neuronové sítě se čtyřmi vrstvami po šesti neuronech. Spojnice mezi neurony ukazují „dráhy“, kudy nejčastěji proudí komunikace. Tyto dráhy se posilují nebo oslabují na základě zpětné vazby. Tedy neuron, který dává neužitečný výstup, se buď poučí, nebo zůstane nevyužit.

Google ke svým překladům podle studie z roku 2016 (PDF) využívá tzv. LSTM (Long short-term memory) sítě, což je speciální typ rekurentní neuronové sítě, nastíněný německým informatikem Jürgenem Schmidhuberem v roce 1997. „LSTM je skvělé v tom, že informace se lépe šíří i na dlouhé vzdálenosti,“ vysvětluje programátor Martin Schmid z Matematicko-fyzikální fakulty UK v Praze. „To v případě překladu znamená hodně slov dopředu, což je důležité.“

Neuronová síť se učí (trénuje) na základě vstupních (testovacích, trénovacích) dat a zpětné vazby. Neuronová síť může také „učit sama sebe“, což zjednodušeně znamená, že sama sobě dává otázku, na kterou zná správnou odpověď, a trénuje sama sebe tak dlouho, dokud tuto odpověď není schopna poskytnout s určitou spolehlivostí.

O umělých neuronových sítích se v teoretické rovině diskutovalo už v roce 1943 (PDF), brzy se ale zjistilo, že počítače ještě dlouho nebudou dostatečně výkonné na to, aby šlo tento koncept rozumně využít. Teprve ve 21. století - do značné míry díky paralelním výpočtům v grafických kartách - se výzkum rozhoupal. V posledních deseti letech pak neuronové sítě, a strojové učení obecně, zažívá nebývalý rozmach. Neuronové sítě se dnes využívají například k analýze obrazu, rozpoznávání řeči, regresní analýze, rychlým „přibližným“ výpočtům (např. zde při hře Poker Texas Hold’em), zpracování velkého množství dat nebo zpracování signálů.

Principy překladu Google Translate pomocí neuronových sítí

„Překlady neuronovými sítěmi znamenají ohromný skok v kvalitě. Jednorázově jsme překlady zlepšili víc, než předtím za celých deset let existence,“ domnívá se Turovsky. „Neuronové sítě překládají celé věty naráz, zatímco předtím jsme překládali jen kousky věty. Je to proces nesmírně náročný na výpočetní výkon. Používáme na to vlastní hardware zvaný Tensor processing units.“ Tyto specializované jednotky se podobají grafickým kartám, ale jsou od začátku přizpůsobené přímo pro strojové učení, což výrazně snižuje jejich spotřebu elektřiny a zvyšuje tak výkon, měřený v počtu operací na jeden watt.

Jak se neuronové sítě učí jazyk?

Jedním ze způsobů, kterým se neuronové sítě “samy” učí, je určování míry podobnosti jednotlivých slov a frází. Díky tomu neuronový překlad lépe pracuje s mnohoznačnými i řídce užívanými slovy. Dokáže totiž odhadnout jejich použití podle známých slov stejného druhu.

Například slovo “tuřín” se v běžné mluvě příliš nevyskytuje, ale neuronový systém na základě dat odhadne, že s ním ve větě může pracovat podobně jako se slovy “mrkev” nebo “brambora”. K podobným závěrům je schopen dojít i na základě vstupů z různých jazyků, které se učí současně. Když budeme mít více ukázkových vět o bramborách v holandštině než v islandštině, odhadne systém na základě znalostí z holandštiny, jak mluvit o bramborách islandsky.

(z tiskové zprávy Google)

Také neuronové sítě využívají k překladům ohromné množství dat v podobě knih, webových stránek, přeložených zákonů atd. Narozdíl od statistických modelů ale umí lépe pracovat se zpětnou vazbou a s kontextem. Neuronové sítě se neučí jazyky jako takové, ale spíše se učí, jak překládat zadané texty, tak aby co nejvíce odpovídaly tréninkovým datům.

Tyto sítě dokonce umí použít, co se naučily na jiných jazycích, k překladu jazyka, ke kterému není k dispozici dostatek tréninkových dat. „Seskupujeme jazyky dohromady, třeba několik slovanských jazyků se vylepší na základě stejných dat,“ dává příklad Turovsky. „Jindy je to celkem nečekané. Třeba překlad z polštiny se zlepšil, když jsme využili data získaná trénováním umělé inteligence na textech ve vietnamštině nebo thajštině. Je to tak trochu černá skříňka,“ dodává.

Protože neuronové sítě se učí z dostupných dat, stejně jako jejich statistický předchůdce, má Google na tomto poli velkou výhodu. „V množství dat nemůže Googlu nikdo konkurovat, snad jen Facebook,“ uvažuje programátor Martin Schmid. „Data jsou v tomto případě kritická. Neuronové sítě v tomto případě velmi dobře škálují. Je snadné dostat lepší výsledky, pokud máte víc dat.“

Podle Turovského mají neuronové sítě ohromné možnosti. Připomínají děti, které se učí nový jazyk. Sám Turovsky má malé děti, které mluví plynně anglicky i rusky: „Učí se naprosto fantasticky, ale občas udělají nějakou záhadnou nebo vtipnou chybu. Někdy si dokážete odvodit, proč tu chybu udělaly, ale jindy prostě nemáte ani ponětí, jak na to přišly.“ Podobné je to s neuronovými sítěmi, které si při trénování na miliónech textů tak trochu žijí vlastním životem.

Podívejte se na náš test mobilní aplikace Google Translate z roku 2015:

Aktualizace: Článek jsme rozšířili o ukázky, příklady, historii a popis teorie. Přidali jsme video a doplnili podrobnosti o neuronových sítích. Doplnili jsme další vyjádření a opravili chybný popisek v tabulce. Doplnili jsme příklady.

Autor:
  • Nejčtenější

Vyzkoušeli jsme podvod z Aliexpressu. Může vás přijít draho, i po letech

v diskusi je 110 příspěvků

14. března 2024

Nakoupili jsme na Aliexpressu a pěkně se spálili. Jednu USB paměť, dvě externí SSD a jeden externí...

Nejsilnější raketa úspěšně prošla prvním testovacím letem do vesmíru

v diskusi je 138 příspěvků

14. března 2024  12:12,  aktualizováno  15:31

Společnost SpaceX poprvé dostala svůj Starship do vesmírného prostoru. Po dvou předchozích...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Svět uznal nároky Beneše. Československo vyhrálo spor s Polskem o Javorinu

v diskusi je 42 příspěvků

12. března 2024

Před 100 lety se Československo dočkalo mezinárodního uznání ve sporu s Polskem o Javorinu....

Tato novinka ve vyhledávání Googlu lidi pěkně vytáčí. Máme řešení

v diskusi je 153 příspěvků

12. března 2024  10:45

Jedna z novinek, kterou přineslo evropské Nařízení o digitálních trzích, je změna v tom, jak Google...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Polopás není polovičaté řešení. Třetí říše byla mistrem v oboru

v diskusi je 9 příspěvků

18. března 2024

Druhá světová válka byla zlatým věkem polopásových vozidel. Vyráběli je především Němci a...

VIDEO: Střílej po mně! Kameraman natočil téměř celý útok v centru Prahy

Premium Ve čtvrtek zemřelo rukou střelce Davida K. 14 obětí, 25 lidí je zraněných, z toho deset lidí těžce. Jedním z prvních na...

Máma ji dala do pasťáku, je na pervitinu a šlape. Elišku čekají Vánoce na ulici

Premium Noční Smíchov. Na zádech růžový batoh, v ruce svítící balónek, vánoční LED svíčky na baterky kolem krku. Vypadá na...

Test světlých lahvových ležáků: I dobré pivo zestárne v obchodě mnohem rychleji

Premium Ležáky z hypermarketů zklamaly. Jestli si chcete pochutnat, běžte do hospody. Sudová piva totiž dopadla před časem...

Kuličková myš, VHS a další technologické skvosty nedávné minulosti

v diskusi je 9 příspěvků

19. března 2024

S některými bylo možné se běžně setkat ještě před deseti lety, jiné je možné koupit a používat...

Od Amazonu po Voyo. Velký test streamovacích služeb našel obří rozdíly

v diskusi je 17 příspěvků

19. března 2024

Premium V jedné můžete vybírat z dvou set filmů a seriálů, ve druhé z osmi tisíc. V jedné je speciální...

Zemřel astronaut Stafford, který si ve vesmíru „podal“ ruku s Leonovem

v diskusi nejsou příspěvky

18. března 2024  19:10

Ve věku 93 let po dlouhé nemoci zemřel někdejší astronaut Thomas Stafford, který byl zapojený do...

Apple přidá do svých zařízení generativní AI, využije k tomu Google

v diskusi nejsou příspěvky

18. března 2024  13:34

Apple jako jedna z mála technologických společností nezachytil příchod vlny generativní umělé...

Nutný výchovný pohlavek, souhlasí Bouček i Havlová s přerušením projevu na Lvu

Moderátor Libor Bouček ostře zareagoval na kauzu ohledně délky proslovu režisérky Darji Kaščejevové na předávání cen...

Švábi, vši a nevychované děti. Výměna manželek skončila už po pěti dnech

Nová Výměna manželek trvala jen pět dní, přesto přinesla spoustu vyhrocených situací. Martina ze Znojma se pokoušela...

Vyzkoušeli jsme podvod z Aliexpressu. Může vás přijít draho, i po letech

Nakoupili jsme na Aliexpressu a pěkně se spálili. Jednu USB paměť, dvě externí SSD a jeden externí HDD. Ve třech...

Chtěli, abych se vyspala s Baldwinem kvůli jeho výkonu, říká Sharon Stone

Herečka Sharon Stone (66) jmenovala producenta, který jí řekl, aby se vyspala s hercem Williamem Baldwinem (61). Měla...

Byla to láska na první pohled, říká hvězda Gilmorek o manželství s modelkou

Milo Ventimiglia (46), představitel Jesse ze seriálu Gilmorova děvčata nebo Jacka Pearsona ze seriálu Tohle jsme my, je...