Vyzkoušejte si českou mluvicí hlavu

  • 41
Lze mluvit s počítačem jako s člověkem? Zatím ne. Existuje však program simulující lidskou hlavu s dokonalou výslovností a prvky umělé inteligence. Vyzkoušet si jej můžete i vy. Na fakultě kybernetiky ZČU vzniká umělá bytost, která by v budoucnu mohla nahradit třeba televizní hlasatele.

Hrdinové sci-fi seriálu Červený trpaslík konverzovali s počítačem, jako by to byl člen rodiny. To pochopitelně v reálném světě zatím není možné. Umělá inteligence není na takové úrovni, aby byl počítač, byť vybaven dokonalým softwarem, schopen přirozeně reagovat na nejrůznější slovní narážky a rozvíjet hovor. I v České republice však existují pracoviště, kde se na vývoji podobných systémů pracuje.

Na katedře kybernetiky Západočeské univerzity v Plzni právě vyvíjejí nový projekt s pracovním názvem Mluvicí hlava. Díky němu si můžete opravdu připadat jako postavy onoho sci-fi seriálu. Na monitoru počítače se objeví hlava ženy a vy si s ní můžete popovídat. Zatím se jedná o ranou fázi vývoje, protože skloubit dohromady rozpoznávání řeči, audiovizuální syntézu a software na porozumění řeči je poměrně náročný úkol.  Program vyhodnotí položený dotaz a logicky na něj zareaguje. Takovéto technologie mají sice před sebou ještě desítky let vývoje, ale již dnes můžeme na vlastní oči vidět dílčí úspěchy.

 Zde si můžete vyzkoušet, jak vám virtuální hlava přečte jakýkoliv zadaný text.

Počítač artikuluje jako člověk

Mluvicí hlava je vlastně audiovizuální syntéza řeči. Jde o počítačovou projekci obrazu lidské hlavy, která nejenom že mluví, ale zároveň zcela přesně artikuluje rty. Právě díky tomu je mluvicí hlava zcela unikátní a systém, jakým je zpracována, nemá ve světě obdoby. Již dnes má praktické využití v systémech pro nedoslýchavé a neslyšící či v hlučném prostředí, kdy jsou hlášení doplňována i vizuálním vjemem. Hlava byla vyvíjena jako součást rozsáhlejšího projektu znakové syntézy, ve kterém se animuje celá postava, která umí daný text nejen zopakovat pomocí audiovizuální syntézy, ale i vyznakovat pro neslyšící.

Mluvicí hlava spojuje dva druhy syntézy lidské řeči – vizuální a akustickou. Pohyb rtů, tváří a očí je vizuální syntézou. Aby mluvený projev hlavy vypadal přirozeně, musí se zvuk (akustická syntéza) s vizuální syntézou sladit. Je to podobné jako při dabingu. Dabér se také pokouší svým mluveným projevem "trefit" ústa dabované postavy. V případě mluvicí hlavy zastupuje dabéra počítač. Na každou hlásku má připravenu vlastní mimiku tváře, pohyb rtů, ale i třeba obočí a očí.

Spojení vizuální a akustické syntézy tedy probíhá na hranicích hlásek, respektive fonémů a vizémů. Foném je označení nejkratšího úseku mluvené řeči - hlásky. Vizém je analogicky označení nejmenšího úseku vizuální řeči - tj. vizuální podoby hlásek. Zjednodušeně řečeno, je to například tvar rtů při vyslovení dané hlásky. Aby ke správným fonémům (hláskám) byly syntetizovány (přiřazeny) správné vizémy (mimika), je třeba celý systém řídit. Nejprve se vytvoří zvuk (syntéza řeči) a k němu se přiřadí mimika (vizuální syntéza).

Proč je mimika důležitá

Je všeobecně známo, že lépe rozumíme, co nám kdo povídá, když se na něj díváme. Tomuto jevu se říká vizuální řeč. Je to soubor všech řečových projevů, které můžeme sledovat zrakem. Nejviditelnější je hýbání rty, ale do vizuální řeči patří i pohyb jazyka, zubů, i celkový výraz tváře. Tato stránka řeči je nesmírně důležitá zejména pro sluchově postižené lidi. Zvláště postižení od narození umí spíše odezírat ze rtů nebo znakovou řeč než číst knihy nebo například titulky ve filmu. O českém programu, který umožní neslyšícím "číst" jsme vás informovali v tomto článku.

Vizuální syntéza se provádí v několika krocích. Nejprve je třeba nasbírat dostatečné množství audiovizuálních dat. Nejdůležitější je co nejpřesněji zaznamenat pohyby rtů, tváří, brady a krku. K tomuto zaznamenávání se používají speciální značky nalepené na skutečnou lidskou tvář, které nasnímá kamera při stereo záznamu. Takto zachycený záznam se v počítači zpracuje a provede se 3D rekonstrukce dat. Dalším krokem je výběr řečových jednotek.

Řečová jednotka je vlastně hláska, která se do systému uloží  i s vazbou na své okolí - je takzvaně zakomponována do okolí. To znamená, že každá hláska je v systému uložena několikrát s nejrůznější intonací tak, aby byla použitelná ve všech možných případech. Uvědomíme-li si, jak obtížné je správně intonovat pro člověka - stačí si vzpomenout na průvodkyni na hradě, která místo aby hlasem poklesla, jej naopak zvedne, pak nelze než výslednou podobu mluveného projevu hlavy obdivovat. Posledním krokem je návrh animace modelu a jeho parametrizace pro urychlení výpočtů při samotné řeči. (Podrobněji viz následující rámeček)

Jak se modeluje virtuální hlava

Jak již bylo zmíněno, je důležité co nejpřesněji zaznamenat pohyby celého obličeje. K zaznamenávání pohybu se používají speciální značky, které se nalepí na obličej snímané osoby a pak jsou zachycovány při stereo záznamu tváře. Do oblasti rtů se umístí 8 značek, dvě značky na tváře a jedna na bradě a na krku. Tímto postupem se získává záznam vizuální řeči.

Stereo záznam tváře důležitý pro 3D rekonstrukci hlavy se provádí promítáním úzkého paprsku světla na tvář snímané osoby. Velice zajímavá je snímací soustava, při které je použita jediná kamera, soustava 4 zrcadel, zdroj světelného paprsku a kalibrační deska. Takto se dá získat 3D rekonstrukce tváře snímané osoby. Nasnímaný obraz se zpracuje metodami digitalizovaného zpracování obrazu a výsledkem je model tváře snímané osoby. Tenký paprsek světla kopíruje tvář a údaje o světlých, nejsvětlejších a naopak nejtmavších místech (stínech) jsou zaznamenávány (takzvaná metoda prahování).

Popis povrchu tváře
Popis povrchu tváře

Hlava se učí mluvit desítky hodin

Nedílnou součástí audiovizuální syntézy je již zmíněná  akustická syntéza, neboli samotná řeč. Ta se v dnešní době nejčastěji provádí tzv. konkatenační syntézou. Lidská řeč je při ní zřetězována z řečových jednotek (viz slovníček), které jsou vybrány z tzv. inventáře řečových jednotek. Zjednodušeně řečeno se jedná o databázi hlásek, které do počítače namluví člověk. Jeho hlasem pak program mluví.  Sestavit a natrénovat takový inventář je poměrně náročný proces, který můžeme rozdělit do několika fází.

Nejprve je třeba namluvit celé věty - tzv. korpus - jedním řečníkem. Aby byla rozmanitost řečových jednotek dostatečná a mohlo vzniknout jakékoliv slovo, je třeba do programu namluvit a uložit desítky hodin záznamu. Ten se zpracuje do již zmíněného korpusu a provede se segmentace. Segmentací je myšleno v tomto případě rozdělení na trifóny. Takto nasegmentovaná data se uloží do inventáře řečových jednotek, odkud jsou pak při samotné syntéze vybírána a zřetězována do slov.

Na následujícím obrázku je obecné schéma systému syntézy řeči z textu uvedenou konkatenační metodou.

Malý slovníček

  • Trifóny jsou hlásky začínající a končící v polovině předcházející a následující hlásky (tj. hláska zakomponovaná do okolí).
  • Řečovou jednotkou rozumíme subslovní jednotky, což jsou hlásky zakomponované do okolí - tzv. difóny nebo trifóny.
  • Afázie je ztráta schopnosti produkovat nebo chápat jazyk. Nejčastější příčinou afázie je cévní mozková příhoda. V menší míře se na vzniku afázie může podílet i traumatický úraz hlavy či mozkový nádor.


Obecné schéma syntézy
Obecné schéma syntézy

Pokud si chcete poslechnout, jak vypadá aktuální česká syntéza řeči v textu, doporučuji si poslechnout tyto nahrávky:

Poslední verze syntézy naleznete zde.

Ukázka syntézy modelující i neřečové události je k dipozici zde

Další ukázky jsou zde. Audiovizuální syntéza

V případě, že máme připravenou jak vizuální syntézu, tak akustickou syntézu, můžeme se pustit do audiovizuální syntézy. Je to úplně poslední krok celého procesu. Dochází zde k synchronizaci akustické i vizuální stránky a vlastnímu vykreslování doprovázenému syntetizovanou řečí.

Celý proces tvorby audiovizuální syntézy je zjednodušeně shrnut na následujícím obrázku.

Proces audiovizuální syntézy řeči
Schéma procesu syntézy vizuální řeči

Na těchto stránkách  si můžete vygenerovat mluvicí hlavu s vlastním textem a stáhnout si ji do počítače. Jak lze mluvicí hlavu v reálu využít?

Mluvicí hlava na letišti

Největší uplatnění se zatím jeví jako pomůcka v prostředí, kde je špatně slyšet. Typickým příkladem jsou různá nádraží či letiště. Tam by hlášení mohla být doplněna vizuálním vjemem, při kterém by člověk lépe zachytil hlášení. Toto úzce souvisí i s aplikací pro sluchově postižené. Tam je idea umístění terminálů, na kterém by mluvicí hlava nedoslýchavým či sluchově postiženým zopakovala důležitá hlášení.

Další aplikací pro využití mluvicí hlavy je výuka sluchově postižených dětí či lidí, co ztratili řeč. Děti se zajímavou formou mohou učit odezírat a nemusí tolik spoléhat na znakovou řeč. Naopak lidé, co ztratili řeč (trpí tzv. afázií), si díky mluvicí hlavě mohou spojit slova s jejich artikulací.

Další skupinou využití jsou počítače. Mluvicí hlava vám může přečíst třeba webovou stránku nebo v budoucnu může personalizovat váš počítač jako v již zmiňovaném Červeném trpaslíkovi.

Pokud se chcete dozvědět více o mluvicí hlavě či o syntéze řeči, můžete využít následující odkazy:

Projekt Musslap

Syntéza řeči