Neuronska Mreža Bila Je Naučena Kopirati Ljudski Glas Gotovo Savršeno - Alternativni Prikaz

Sadržaj:

Neuronska Mreža Bila Je Naučena Kopirati Ljudski Glas Gotovo Savršeno - Alternativni Prikaz
Neuronska Mreža Bila Je Naučena Kopirati Ljudski Glas Gotovo Savršeno - Alternativni Prikaz

Video: Neuronska Mreža Bila Je Naučena Kopirati Ljudski Glas Gotovo Savršeno - Alternativni Prikaz

Video: Neuronska Mreža Bila Je Naučena Kopirati Ljudski Glas Gotovo Savršeno - Alternativni Prikaz
Video: Ljudske pevke - Pred hiško sedim 2024, Travanj
Anonim

Prošle godine tvrtka za umjetnu inteligenciju DeepMind podijelila je detalje o svom novom projektu WaveNet, neuralnoj mreži dubokog učenja koja se koristila za sintetizaciju realističnog ljudskog govora. Nedavno je objavljena poboljšana inačica ove tehnologije koja će se koristiti kao osnova digitalnog mobilnog asistenta Google Assistant.

Sustav sinteze glasa (poznat i kao funkcija pretvaranja teksta u govor, TTS) obično se gradi oko jedne od dvije osnovne metode. Konkanacionala (ili sastavljanje) metoda uključuje izgradnju fraza prikupljanjem pojedinih dijelova snimljenih riječi i dijelova prethodno snimljenih uz sudjelovanje glasa. Glavni nedostatak ove metode je potreba za stalnom zamjenom zvučne biblioteke, kad god se izvrše ažuriranja ili promjene.

Druga metoda naziva se parametrijski TTS, a njezino je obilježje uporaba skupova parametara s kojima računalo generira željenu frazu. Nedostatak metode je što se najčešće rezultat očituje u obliku nerealnog ili takozvanog robotskog zvuka.

WaveNet, s druge strane, proizvodi zvučne valove ispočetka koristeći konvolucijski sustav neuronske mreže u kojem se zvuk generira u nekoliko slojeva. Prvo, za osposobljavanje platforme za sintetiziranje "živog" govora "hrani se" ogromnom količinom uzoraka, uz napomenu koji zvučni signali zvuče realistično, a koji ne. To daje sintisajzeru glasa mogućnost reprodukcije naturalističke intonacije, pa čak i detalja poput pucketanja usnica. Ovisno o tome koji se uzorci govora provode kroz sustav, to mu omogućuje da razvije jedinstveni "naglasak", koji se dugoročno može koristiti za stvaranje mnogo različitih glasova.

Oštro na jeziku

Možda je najveće ograničenje WaveNet sustava bilo to što je za pokretanje bila potrebna ogromna računalna snaga, pa čak i kad je taj uvjet ispunjen, nije se razlikovao u brzini. Na primjer, trebalo je otprilike 1 sekundu vremena za stvaranje 0,02 sekunde zvuka.

Nakon godinu dana rada, inženjeri DeepMind-a još su pronašli način da poboljšaju i optimiziraju sustav, tako da je sada sposoban proizvesti sirov zvuk od jedne sekunde u samo 50 milisekundi, što je 1000 puta brže od njegovih prvobitnih mogućnosti. Nadalje, stručnjaci su uspjeli povećati brzinu uzorkovanja zvuka s 8-bitnog na 16-bitni, što je imalo pozitivan učinak na testove koji uključuju slušatelje. Ti su uspjesi utkali put da se WaveNet integrira u potrošačke proizvode kao što je Google Assistant.

Promotivni video:

Trenutno WaveNet se može koristiti za generiranje engleskog i japanskog glasa putem Google Assistant-a i svih platformi koje koriste ovaj digitalni pomoćnik. Budući da sustav može stvoriti posebnu vrstu glasova, ovisno o tome koji je set uzoraka dodijeljen za obuku, Google će u skoroj budućnosti najvjerojatnije implementirati podršku za sintetizaciju realističnog govora u WaveNetu na drugim jezicima, uključujući uzimajući ih u obzir lokalni dijalekti.

Govorna sučelja postaju sve češća na mnogim platformama, ali njihova naglašena neprirodna priroda zvuka isključuje mnoge potencijalne korisnike. Napori DeepMind-a da poboljša ovu tehnologiju zasigurno će doprinijeti širem prihvaćanju takvih govornih sustava, kao i poboljšanju korisničkog iskustva nakon njihove uporabe.

Primjere sintetiziranog govora engleskog i japanskog jezika pomoću neuronske mreže WaveNet možete pronaći slijedeći ovu vezu.

Nikolaj Khizhnyak