Výzkumníkům z Microsoftu se spolu s vědci z univerzity v Če-ťiangu vyvinuli umělou inteligenci, která dokáže snadno generovat mluvené slovo z napsaného textu.
Systém funguje poměrně jednoduše a nevyžaduje příliš mnoho dat ani času, navíc zní poměrně v přirozeně (v angličtině). Stačilo jim na to pouhých 200 vzorků hlasu a transkripcí.
Z části celá umělé inteligence spoléhá na Transformery, neboli hluboké neuronové sítě, které zhruba emulují neurony v mozku člověka. Transformery srovnávají vstupy a výstupy jako synaptické spoje a pomáhají velmi efektivně zpracovávat zdlouhavé sekvence – třeba rozvité věty v jazyce. Spolu s enkodérem na odstraňování šumu dokáže s relativně málem dokázat umělá inteligence mnohé.
Výsledek perfektní není, zvuk působí trochu roboticky, ale je velmi přesný, až na 99,84 % u anglických slov. Převod textu do hlasu by se tak mohl stát mnohem dostupnějším, a to by bylo dobrá věc – teď už jen, aby byly spolehlivé a levné systémy, které dokáží i opak.
V budoucnu vědci doufají, že se podaří vytvořit obdobně realistický dialog za pomoci ještě méně vstupních dat.