Systém umí rozpoznávat slova v mluvené řeči a převádět promluvy do psané podoby. Díky tomu je pak například možné pomocí klíčových slov vyhledávat ve zvukových nebo audiovizuálních záznamech - třeba z přednášek.
„Indexuje se to automaticky systémem pro rozpoznávání řeči, rozhodně to není tak, že by seděl nějaký otrok a přepisoval to,“ žertuje o své práci vedoucí skupiny BUT Speech@FIT při Vysokém učení technickém Jan Černocký.
Výzkumníci z Fakulty informačních technologií se rozpoznáváním řeči zabývají už skoro dvě dekády a celosvětově patří ke špičce v oboru. V závislosti na tématu a kvalitě promluvy jejich systémy dosahují při identifikaci slov vysoké přesnosti - přes 90 procent.
Spolupracují s firmami, které dolování v řeči již používají ve svých produktech dostupných na trhu. Třeba společnost Phonexia cílí právě na zmíněné získávání bezpečnostních informací z řeči, prodává však i aplikace pro call centra a banky (rozhovor čtěte zde). Firma Lingea se zase soustředí na vyhledávání hlasem ve slovnících.
Schopnosti systému je možné využít například k diktování protokolů či lékařských zpráv, které jsou převedeny do psaného textu.
„Nyní jsme schopni rozpoznávat dobře v prostředí, kde je klid, člověk mluví srozumitelně přímo do mikrofonu. S těžkým prostředím, jakým je třeba zakouřená hlučná hospoda, je ještě potíž. Chceme ale, aby počítače v budoucnu dokázaly přepisovat řeč, detekovat mluvčího a informace z mluvené řeči i ve složitých případech a lépe než člověk,“ nastínil Černocký s tím, že je rád, že výsledky projektu přispěly ke vzniku reálných produktů pro zákazníky.
Člověk má výhodu, zná kontext
Podle něj je rozdíl, jestli má systém rozpoznávat pojmy z debaty o počasí nebo promluvy na mnohem složitější témata. Snadné to není také proto, že při běžné mezilidské komunikaci člověk většinou zná kontext setkání i samotného hovoru.
„Zná preference či politické a náboženské přesvědčení svého protějšku, které do promluvy mohou vstupovat. Má o něm a priori informace. Při porozumění řeči nezáleží jen na řeči samotné, plete se tam reprezentace znalostí celého lidstva. Není to jednoduchý úkol. Když se někdo bude bavit o tuningu rádiem ovládaných aut, tak standardní rozpoznávač vyhoří,“ dodal s tím, že systém učí i adaptaci na méně známé jazyky či dialekty.
Naučit systém nový jazyk jim nyní trvá zhruba půl roku, závisí na jeho obtížnosti a počtu slov. Třeba čeština s půl milionem slov ve spisovné podobě není nic lehkého. Spolupracují při tom s jazykovými odborníky - fonetikem a lingvistou.
V budoucnu by se však dosud neznámé jazyky mohly systémy učit samostatněji.
Projekt podpořila i Technologická agentura
„Pracujeme na algoritmech ‚učení bez učitele‘, aby rozpoznávače byly schopné se samy doučovat a samy trénovat na nové jazyky. Nejraději bychom jen napíchli počítač na internet a řekli systému: Stáhni si vše potřebné a nauč se to sám. Tohle je ale otázka spíš několika dalších desítek let,“ připustil Černocký.
Jednu z etap projektu podpořila skoro 24 miliony korun i Technologická agentura ČR. „Technologie tohoto typu tvoří vysokou přidanou hodnotu díky minimálním nákladům a možnosti vysokých příjmů z prodaných licencí za software,“ objasnil ředitel agentury Petr Očko, proč grant poskytli.
Podle něj jde o velmi důležitý výzkum s potenciálem přinést České republice významné zvýšení podílu hi-tech technologií v ekonomice a uplatnění na mezinárodních trzích.