Uměle vytvořené video Barracka Obamy | foto: stanford.edu

Budoucnost falešných zpráv: za tři roky budou videa nedůvěryhodná

  • 67
Kvůli fotomontážím se už dlouho nedá jen tak věřit fotografiím. Nové technologie povedou ke stejně přesvědčivým manipulacím i v oblasti lidského hlasu a dokonce i videí. Falešné zprávy nedaleké budoucnosti tak mohou obsahovat libovolnou osobnost, která řekne svým hlasem cokoli, co se jí zadá.

Šíření falešných zpráv se věnuje poměrně dost pozornosti, zejména v kontextu „ultrastranických“ politických serverů. Na internetu se uchytí i zjevný nesmysl, třeba zpráva o tom, že se dají vědomosti do mozku nahrát jako ve filmu Matrix. S přibývajícími technologickými pokroky a rozvojem umělé inteligence budou ovšem podvrhy čím dál tím přesvědčivější a nebudou se omezovat jen na text nebo fotky upravené v grafickém editoru.

Falešný Obama

Tři výzkumníci z Washingtonské univerzity nedávno předvedli, že to není nijak vzdálená budoucnost. V článku „Synthesizing Obama: Learning Lip Sync from Audio“ popisují, jak zvládli za využití strojového učení (machine learning) vytvořit fotorealistické video minulého amerického prezidenta, jak pronáší některý ze svých prezidentských proslovů. Jejich výsledek je mnohem přesvědčivější než dosavadní pokusy a zároveň potřebuje jako vstupní data jen zvukovou nahrávku řeči.

Podobný projekt ze Stanfordovy univerzity, Face2Face, dokázal v reálném čase přenášet mimiku živého „herce“ do videa, kde stejné pohyby obličeje prováděl například George Bush nebo Arnold Schwarzenegger. U nové metody pak není vůbec potřeba, aby žádané pohyby někdo vykonával, sám je vytvoří z nahraného slovního projevu. Nejprve je však potřeba, aby se algoritmus naučil, jak to má vypadat. Proto byl k imitaci zvolen právě Barack Obama, u kterého jsou veřejně dostupné hodiny videonahrávek proslovů ve vysokém rozlišení. Program se na nich učil, jak hýbe pusou při kterém fonému, stejně jako další prvky jeho mimiky. Poté dokázal tyto pohyby uměle vytvořit jen z audio nahrávky Obamova projevu.

Výzkumníci si zde zjednodušili práci tím, že tuto „syntetizovanou“ pusu a její okolí vložili do existujícího videa Obamova projevu, a nevytvářeli tedy pohyby hlavy ani mimiku horní části obličeje. Ale i toto omezení nabízelo dost využití. Mohli například vzít projev z roku 2016 a velmi přesvědčivě ho vložit do videa o mnoho let mladšího nebo třeba vzít zvukovou stopu z nějakého rozhovoru s prezidentem a udělat z ní oficiální televizní projev. Možnosti podvrhu jsou zde zatím spíše omezené, je to spíše demonstrace toho, jak může vývoj dále postupovat.

Algoritmus nevytvořil zcela nové video, pouze pozměnil jeho část, a pracoval tak s originální nahrávkou osoby, část jejíž mimiky měl imitovat. Synchronizovat pohyby úst jednoho člověka s projevem pocházejícím od někoho se zcela odlišným způsobem mluvy bude samozřejmě mnohem složitější, stejně jako umělé vytvoření celých pohybů hlavy a nejen samotné pusy.

U většiny lidí se však nedá dostat k takovému množství video materiálu, aby bylo možné dosáhnout dost dobrého výsledku. To je vidět třeba u podobného pokusu, kdy byla slova poradkyně prezidenta Trumpa Kellyanne Conwayové vložena do úst francouzské zpěvačky Françoise Hardyové.

Zde se (odlišný) algoritmus učil jen z jejích hudebních videí, která samozřejmě nejsou tak dobrým zdrojem jako prezidentské projevy a video výstup je mnohem méně kvalitní.

Ale již tyto prvotní úspěchy ukazují, že samotný princip je funkční a není nijak zvlášť složitý. S pokroky strojového učení pak budou videa čím dál kvalitnější a nároky na materiál potřebný k jejich vytvoření se budou stále snižovat.

Umělý hlas

Vše se stává ještě děsivější v okamžiku, kdy k „umělému Obamovi“ a Face2Face přidáme technologie na syntetizaci lidského hlasu, které jsou taktéž ve vývoji.

Společnost Adobe, jejíž Photoshop způsobil, že se již nedá věřit fotografiím, teď pracuje na VoCo, programu, který má stejně dobrou editaci přinést i pro práci s hlasem. Ten dokáže například přeházet slova ve větě, kterou někdo řekl, nebo jeho hlasem pronést i zcela jiná slova. Samozřejmě po „natrénování“.

Podobný projekt Lyrebird pak dokonce chce dosáhnout toho, že bude stačit jen minuta něčí mluvy pro to, aby program dokázal tímto hlasem pronést cokoliv. Již dnes nabízí ukázky toho, jak dokáže hlasem Trumpa, Obamy nebo Hillary Clintonové pronést jednu větu v mnoha odlišných intonacích.

Zatím se dá velmi snadno poznat, že jde o počítačem syntetizovaný projev, ale to se zcela jistě změní. Bude pak teoreticky možné napsat úplně cokoli, vytvořit z toho zvukovou nahrávku s hlasem amerického prezidenta a posléze ji vložit do programu, který vytvoří odpovídající pohyby rtů a vloží ji do existujícího videa či dokonce vytvoří zcela nové. V tomto případě už jsou potenciální podvrhy velmi nebezpečné.

V budoucnu tedy bude ještě mnohem těžší rozeznat falešnou zprávu od té pravdivé. Podle některých odhadů je přitom doba přesvědčivě působících falešných videí vzdálená už jenom tři roky.

Budou samozřejmě možnosti, jak autenticitu videa ověřit. Kromě obrazových chyb se mluví o vyžadování metadat ukazujících, kdy a kde bylo video natočeno, nebo kryptografickém podpisu. Ale to vše také nutně nemusí pomoct v situaci, kdy je šíření falešné zprávy přímo něčím cílem.

Velké množství lidí bez důkazu uvěřilo tomu, že CNN vysílalo porno nebo že je možné nahrát schopnosti pilotování letadla přímo do mozku. Příchod realistických videí, kde libovolná osobnost říká svým hlasem cokoli, co se tvůrci falešné zprávy zachce, bude pak obrovskou výzvou. Zvlášť pokud to bude zpráva, které lidé budou chtít věřit.