Premium

Získejte všechny články
jen za 89 Kč/měsíc

Poslanci budou mít v televizi titulky. V reálném čase je vytvoří počítač

Česká televize připravuje od jara příštího roku unikátní službu. Využije systémy na rozpoznávání řeči, aby v reálném čase připravily titulky k vysílanému pořadu. Nejprve budou titulkovány vstupy z parlamentu a postupně se bude služba rozšiřovat.

Nejen neslyšící potěší testování rozpoznávání řeči v České televizi

Vyzkoušeli jste si někdy ovládat třeba váš mobilní telefon pomocí hlasových příkazů? Pak asi víte, že ne vše vždy funguje, tak jak má. A to se jedná pouze o jednotlivá slova. Teď si představte, jak složitý musí být systém, který má zvládnout bezproblémový převod mluvené řeči do textu.

Projekt titulkování v reálném čase probíhá v Česku ve spolupráci s katedrou kybernetiky Západočeské univerzity. Například v USA jsou běžně titulkovány (nikoliv však plně automaticky) reklamní bloky, filmy, ale i talk show. U nás se zatím počítá pouze s přenosy z parlamentu. Později by měly přijít na řadu i sportovní přenosy. Nejen, že pořady s titulky mohou snáze sledovat i někteří neslyšící, ale jsou i vynikající pomůckou při samostudiu daného jazyka. 

Jak celé rozpoznávání probíhá

Aby program na rozpoznávání mohl úspěšně rozpoznávat, je třeba ho pečlivě “natrénovat“. Nejprve se musí provést předzpracování cvičných dat. To zahrnuje anotaci zvukového záznamu a později zpracování anotovaného textu. V případě záznamu z parlamentu je třeba například zpracovat stenografický zápis pro účely tvorby jazykového modelu.

Poté je třeba speciálními programy vytvořit akustický a jazykový model. Tyto modely se dále implementují do tzv. dekodéru. Dekodér je speciální program, který je třeba dále trénovat a nastavovat parametry. Výstupem jsou pak trigramové nebo bigramové modely jazyka určené pro rozpoznávání. Trigramový/bigramový model znamená, že titulky jsou dle spočítané pravděpodobnosti v jazykovém modelu zobrazované a upravované ve trojicích/dvojicích.

Proč je rozpoznávání řeči tak složité?

Slovník 50 000 nejfrekventovanějších slov pokrývá v češtině 90,5 %, v angličtině dokonce 99.3 %.

Slovník 300 000 nejfrekventovanějších slov pokrývá zhruba 97.6 % češtiny. U anglického jazyka je to dokonce 100 %.

Pro pokrytí téměř 100 % českého textu je potřeba slovník 1 500 000 nejfrekventovanějších slov.

Tuto velikost slovníku nutného pro pokrytí českého textu způsobuje obrovské množství ohebných tvarů českých slov. Potencionálně lze od jednoho slovesa odvodit až 300 tvarů, pro podstatné jméno 20 tvarů a pro přídavné jméno 200 tvarů.


Titulky v České televizi

Veřejnoprávní televize má ze zákona povinnost titulkovat 70 % vysílaných pořadů. Nejjednodušší způsob je samozřejmě pořady otitulkovat před odvysíláním. To však jde pouze u pořadů, které nejsou vysílány živě.

Tak také vznikají titulky pro sluchově postižené spoluobčany, tzv. skryté titulky, které lze vyvolat na teletextu ČT.

Vše funguje tak, že si určená osoba poslechne záznam a přepíše veškerou mluvenou řeč do titulků. Ty se pak časově sesynchronizují a nakonec odvysílají s daným pořadem v televizi. Problém nastává u živých pořadů, jako jsou sportovní přenosy, přenosy z tiskových konferencí, z parlamentu a mnohé další. V podstatě jediným řešením by bylo najmout stenografy, kteří by pořady téměř reálně otitulkovali. Problémem je jejich nedostatek a cena jejich práce.

Z těchto důvodů se přistoupilo k vývoji počítačového programu pro tvorbu automatických titulků. Věc však není tak jednoduchá. Rozpoznávání řeči, tak aby bylo alespoň trošku úspěšné, je vázáno na mnoho podpůrných faktorů. V místnosti, kde se řečník nachází, musí být ticho, řečník by měl být v klidu a nejlépe by měl daný text číst. To při sportovních událostech není možné. Zhruba před pěti lety v britské BBC kvůli těmto problémům přistoupili na projekt se stínovým řečníkem. To je člověk, který v klidu přemlouvá původního řečníka. Je to taková obdoba tlumočení z češtiny do češtiny.

Spolupráce s vysokou školou

Na katedře kybernetiky ZČU se zkouší oba přístupy – přímé rozpoznávání a rozpoznávání u stínového řečníka. Úspěšnost automatického titulkování hokejového zápasu je při přímém rozpoznávání 75 % a při přemlouvání stínovým řečníkem přes 90 %. Česká televize rovněž testuje automatické titulkování přenosů z parlamentu, kde úspěšnost je 85 % při přímém rozpoznávání. Rozdíl je dán klidem řečníků, relativním tichem a téměř čteným projevem.

Testovací provoz

Úspěšnost v případě parlamentního záznamu zhruba 85 %. Z tohoto důvodu bude první reálně nasazené automatické titulkování právě na parlamentním záznamu. V České televizi bude probíhat zkušební provoz od jara 2008. Cílem je otestování systému sluchově postiženými.

Katedra kybernetiky chystá i automatické titulkování pro další živé pořady a zkouší nové přístupy. Například hokejové záznamy se budou přemlouvat stínovým řečníkem. Dalším chystaným projektem je automatické titulkování znakovou řečí. Limitujícím faktorem pro všechny tyto úlohy je rozsáhlost českého jazyka a výkonnost počítačů. Jak to v reálu vypadá se můžete podívat na těchto stránkách.

 

Poznámka:

Pod pojmem anotace zvukového záznamu se rozumí přepsání záznamu do textu speciálním programem. Je třeba přesně „říci“ počítači, kde se například komentátor nadechl, kde předal slovo někomu jinému, kde byl velký hluk a podobně. Všechny tyto mimoslovní záznamy se označují speciálními slovy. Například DRUM označuje hluk bubínku v publiku. Zároveň je třeba u cizích slov označit i přesnou výslovnost například New {nů } York{jork}.


Autorka je studentkou katedry kybernetiky Západočeské univerzity.


Autor:
  • Nejčtenější

Zázrak! NASA po pěti měsících obdržela od sondy Voyager smysluplnou zprávu

v diskusi je 137 příspěvků

23. dubna 2024  13:37

Když se v únoru letošního roku stále nedařilo navázat smysluplnou komunikaci s jedním z...

Herečce Slávce Budínové by bylo 100 let. Zemřela opuštěná, bez zájmu veřejnosti

v diskusi je 27 příspěvků

21. dubna 2024

Před 100 lety, 21. dubna 1924, se v Ostravě narodila známá česká herečka Slávka Budínová.

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Znovuzrození japonských letadlových lodí. Ve výzbroji budou mít F-35B

v diskusi je 51 příspěvků

19. dubna 2024

Japonsko má ve své ústavě zakázáno vlastnit ofenzivní zbraně, jako jsou letadlové lodě. Doba...

Uvidíme v budoucnu na obloze druhý Měsíc? Příčinou může být neobvyklá hvězda

v diskusi je 13 příspěvků

17. dubna 2024

Velmi neobvyklá hvězda éta Carinae v 19. století náhle zjasnila a stala se druhou nejjasnější...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Unikátní exkurze. Nahlédněte do francouzské jaderné ponorky před vyplutím

v diskusi je 16 příspěvků

20. dubna 2024

Není obvyklé, aby reportéři mohli nahlédnout do jaderné ponorky v aktivní službě. Agentura AP nyní...

POZOR VLAK: Slavíme půl století pražského metra, vznikla k tomu unikátní hra

v diskusi nejsou příspěvky

24. dubna 2024  7:29

Pro Československo, a především pro Prahu, to byl slavný den, devátého května 1974 byl slavnostně...

Jiří Horák obnovil ČSSD a dovedl ji do parlamentu. Se Zemanem si nerozuměl

v diskusi nejsou příspěvky

24. dubna 2024

Před 100 lety se narodil Jiří Horák, který po sametové revoluci pomáhal znovuobnovit sociální...

Dnes už se bez nich válčit nedá. Raketový vzestup bojových dronů

v diskusi je 13 příspěvků

24. dubna 2024

Bezpilotní letadla (drony) jsou v posledních dvou dekádách na raketovém vzestupu. Přispěla k tomu...

Snadno s fotkami už i ve Windows. Aplikace Fotografie vyrostla na novou úroveň

v diskusi nejsou příspěvky

24. dubna 2024

Premium Aplikace Fotografie, která je pevnou součástí Windows, slouží nejen k prohlížení obrázků. Stejně...

Quality Hotel Brno Exhibition Centre
RECEPČNÍ

Quality Hotel Brno Exhibition Centre
Jihomoravský kraj
nabízený plat: 30 550 - 30 550 Kč

Manželé Babišovi se rozcházejí, přejí si zachovat rodinnou harmonii

Podnikatel, předseda ANO a bývalý premiér Andrej Babiš (69) s manželkou Monikou (49) v pátek oznámili, že se...

Sexy Sandra Nováková pózovala pro Playboy. Focení schválil manžel

Herečka Sandra Nováková už několikrát při natáčení dokázala, že s odhalováním nemá problém. V minulosti přitom tvrdila,...

Herečka Hunter Schaferová potvrdila románek se španělskou zpěvačkou

Americká herečka Hunter Schaferová potvrdila domněnky mnoha jejích fanoušků. A to sice, že před pěti lety opravdu...

Největší mýty o zubní hygieně, kvůli kterým si můžete zničit chrup

Možná si myslíte, že se v péči o zuby orientujete dost dobře, přesto v této oblasti stále ještě existuje spousta...

Tenistka Markéta Vondroušová se po necelých dvou letech manželství rozvádí

Sedmá hráčka světa a aktuální vítězka nejprestižnějšího turnaje světa Wimbledonu, tenistka Markéta Vondroušová (24), se...