Počítač odezívající ze rtů vzbuzuje obavy o soukromí

Automatizovaný systém dokáže odečítat rty s přesností 76 procent – a výkonnější stroje jsou na cestě

Christine Roth

Jordánský vědec vytvořil automatizovaný systém odečítání ze rtů, který dokáže dešifrovat řeč s průměrnou úspěšností 76 procent. Zjištění ve spojení s nedávným pokrokem v oblasti počítačového vidění, rozpoznávání vzorů a zpracování signálu naznačují, že počítače budou brzy schopny odečítat ze rtů dostatečně přesně, aby vyvolaly otázky ohledně soukromí a bezpečnosti.

Jak dlouho lidé odečítají ze rtů?

Podle Recenze technologie ,,téměř každý používá do určité míry odezírání ze rtů“. V běžné konverzaci se i lidé bez sluchových potíží do určité míry spoléhají na vizuální informace. To vysvětluje, proč je možné rozumět lidem v hlučném prostředí a v televizi se ztlumeným zvukem.

Předpokládá se, že umění odezírat ze rtů sahá až do roku 1500 našeho letopočtu. Prvním zaznamenaným učitelem odezírání ze rtů byl benediktinský mnich Pietro Ponce, který zemřel v roce 1588. Němec Samuel Heinecke vytvořil školu pro odezírání v Lipsku v roce 1787 a první známá konference odezírání se konala v Chautauqua v USA v roce 1894. .

Jak odečítání ze rtů funguje?

Lidská komunikace se dělí na zvuky řeči neboli fonémy a jim odpovídající polohu obličeje a úst, neboli visemy. Čtenáři rtů se pokoušejí interpretovat řeč pouze ze čtení visemů, což představuje problémy, protože existuje mnohem více fonémů (mezi 45 a 53) ve srovnání s visemy (mezi 10 a 14). To ztěžuje zachycení některých slov pouze pomocí vizuální informace, protože jeden tvar úst by mohl pokrýt řadu různých slov.

Jak může pomoci technologie?

Výzkumník Ahmad Hassanat | z Mu’tah University v Jordánsku říká, že automatické odezírání se v posledních letech výrazně zlepšilo, ale stále existují problémy při vytváření softwaru, který dokáže přesně propojit visemy s fonémy. Říká, že čtečky lidských rtů fungují nejlépe, když mají představu o kontextu konverzace a dobře rozumějí gramatice, idiomům a běžným frázím. Vytvoření počítačového programu, který je dokáže přesně rozpoznat, bude nějakou dobu trvat, říká Hassanat.

Proč by mohla být technologie odečítání ze rtů užitečná?

Technologie, která umí odečítat ze rtů, má širokou škálu potenciálních využití v interakci mezi člověkem a počítačem (obor, který pomáhá navrhovat nové vstupní systémy, které lidem usnadňují ovládání jejich zařízení), rozpoznávání mluvčích, znakové řeči a video sledování.

Hassanat navrhuje, že technologie odečítání ze rtů by mohla být použita k ochraně dat vytvořením a 'vizuální heslo' , kdy uživatelé namluví řetězec slov do fotoaparátu svého zařízení, aby pomohli ověřit svou identitu online.

Myšlenka použití technologie odečítání ze rtů při sledování však „vyvolává celou řadu problémů souvisejících s ochranou soukromí“, navrhuje Technology Review. „Například se může stát, že videa rozhovorů bez zvuku nelze nyní interpretovat, ale v budoucnu mohou být snadno interpretovatelné. Jak by si politici, obchodní vůdci a populární osobnosti mohli při takové budoucí analýze přát?“

Hassanat připouští, že bude ještě mnoho let trvat, než software pro vizuální rozpoznávání řeči dokáže interpretovat řeč s výrazně větší přesností než v současnosti.

Obrázek z Christine Roth