Kada će Umjetna Inteligencija Početi Izražavati Seriju - Alternativni Prikaz

Sadržaj:

Kada će Umjetna Inteligencija Početi Izražavati Seriju - Alternativni Prikaz
Kada će Umjetna Inteligencija Početi Izražavati Seriju - Alternativni Prikaz

Video: Kada će Umjetna Inteligencija Početi Izražavati Seriju - Alternativni Prikaz

Video: Kada će Umjetna Inteligencija Početi Izražavati Seriju - Alternativni Prikaz
Video: Treći element S6E31: Umjetna inteligencija - kraj ljudskog roda? 2024, Ožujak
Anonim

Ruski izdavači već eksperimentiraju s strojnim snimanjem audio knjiga, ubuduće se umjetnoj inteligenciji može povjeriti prevođenje serijskih serija i presnimavati ih glasovima omiljenih glumaca. O značajkama takvih tehnologija i koliko će vremena trebati da se stvore.

Usmeni govor postaje pisan

Na YouTubeu se automatskim titlovima za videozapise stvara prepoznavanje glasa i softver za prijevod govora u tekst. Temelji se na neurološkim mrežama samo-učenja. Ova je opcija stara više od deset godina, ali rezultat je još uvijek daleko od idealnog. Češće nego ne, možete uhvatiti samo opće značenje onoga što je rečeno. U čemu je poteškoća?

Recimo, objašnjava Andrey Filchenkov, voditelj laboratorija za strojno učenje na Sveučilištu ITMO, da gradimo algoritam za prepoznavanje govora. Ovo zahtijeva obuku neuronske mreže na velikom polju podataka.

Trebat će stotine, tisuće sati snimanja govora i njihova ispravna usporedba s tekstovima, uključujući označavanje početka i kraja izraza, promjenu sugovornika i tako dalje. To se naziva kućište. Što je veća, bolji je trening neuronske mreže. Stvarno su stvoreni veliki korpusi za engleski jezik, pa je prepoznavanje mnogo bolje. Ali za ruski ili, recimo, španjolski, podataka ima puno manje, a za mnoge druge jezike nema podataka.

"I rezultat je prikladan", zaključuje znanstvenik.

"Pored toga, vrednujemo značenje riječi, fraze u filmu ne samo zvukom, intonacija glumca i njegova izraza lica također su važni. Kako to tumačite? " - dodaje Sergej Aksenov, izvanredni profesor Odjela za informatičku tehnologiju Sveučilišta Tomsk.

Promotivni video:

„Kako se nositi s osobinama tečnog govora? Neizrazita artikulacija, skiciranje, izbacivanje, pauze? Napokon, ovisno o tome, značenje se mijenja, kao u "ne možeš se pomilovati". Kako naučiti stroj kako bi utvrdio gdje govornik ima zarez? A u poeziji? " - navodi Marina Bolsunovskaya, voditeljica laboratorija „Industrijski sustavi za obradu podataka za strujanje podataka“Centra NTI SPbPU.

Najuspješniji projekti, prema mišljenju stručnjaka, nalaze se u uskim područjima. Na primjer, sustav za prepoznavanje profesionalnog govora liječnika pomoću medicinskih izraza, razvijen od strane RTC grupa tvrtki, pomaže liječnicima da zadrže medicinsku povijest.

„Ovdje možete jasno obrisati predmetno područje i istaknuti ključne riječi u govoru. Liječnik posebno naglašava određene dijelove intonacijom: pritužbe pacijenata, dijagnoza”, pojašnjava Bolsunovskaya.

Još jedan problem ističe Mihail Burtsev, voditelj laboratorija neuronskih sustava i dubokog učenja na MIPT-u. Činjenica je da je stroj do sada uspješniji u prepoznavanju teksta kada jedna osoba govori više nego nekoliko, kao u filmovima.

Prijevod s kontekstom

Uzmimo, na primjer, video na engleskom jeziku, isječak iz TV serije "Igra prijestolja", i uključimo automatske ruske titlove. Ono što vidimo vjerojatno će nas nasmijati.

Još od * Game of Thrones *
Još od * Game of Thrones *

Još od * Game of Thrones *.

Međutim, u strojnom prevođenju tehnologija je postigla impresivan uspjeh. Dakle, Google Translate prevodi tekst u uobičajene jezike prilično podnošljivo, često je potrebno samo minimalno uređivanje.

Činjenica je da je neuronski mrežni prevoditelj također obučen na velikom nizu početnih, točno označenih podataka - paralelnom korpusu, koji pokazuje kako bi svaka fraza na izvornom jeziku trebala izgledati na ruskom.

„Gradnja takvih zgrada veoma je naporna, skupa i dugotrajna, potrebno je mjesecima i godinama. Za osposobljavanje neuronske mreže potrebni su nam tekstovi veličine Aleksandrijske knjižnice. Modeli su univerzalni, ali mnogo toga ovisi o jeziku. Ako pružite puno podataka, na primjer, na Avaru i prijevod će biti kvalitetan, ali za Avar jednostavno nema takve količine podataka , kaže Andrey Filchenkov.

"Prijevod je zaseban proizvod koji je povezan s originalom, ali mu nije jednak", kaže Ilya Mirin, direktor Škole digitalne ekonomije na Sveučilištu Far East Eastern. - Tipičan primjer su prijevodi stranih filmova Dmitrija Puchkova (Goblin) u 90-ima. Tek nakon njegovog rada postalo je jasno što se tamo događa. Nismo mogli pronaći ništa adekvatno iz VHS verzija. Alternativno, pokušajte prevesti na jezik koji dobro znate, nešto od Majstora i Margarite. Na primjer, "u crnom ogrtaču s krvavom podstavom". Stroj to ne može učiniti."

Neuronske mreže dobro uče na mnogim tipičnim primjerima, ali filmovi su prepuni složenih značenja i konotacija, viceva koji nisu dostupni stroju - ne može ih razlikovati.

„U svakoj se epizodi animirane serije Futurama nalazi referenca na klasično američko kino - Casablanca, Roman Holiday i tako dalje. U takvim trenucima, kako bi uhvatio i prepakirao smisao za one koji nisu gledali te filmove, prevoditelj mora smisliti sličan ruski kontekst. Pogrešan strojni prijevod može biti vrlo obeshrabrujući za gledatelja , nastavlja Mirin.

Prema njegovom mišljenju, kvaliteta strojnog prijevoda je blizu 80 posto, ostalo je specifičnost koja se mora dodati ručno, u koju su uključeni stručnjaci. "A ako 20-30 posto izraza zahtijeva ručnu korekciju, što je onda korisno strojno prevođenje?" - kaže istraživač.

"Prevođenje je najproblematičnija faza", slaže se Sergej Aksenov. - Sve zavisi od semantike i konteksta. Dostupni alati mogu se koristiti za prevođenje i strojno glasovno djelovanje, na primjer, dječje crtane filmove jednostavnim rječnikom. No s interpretacijom frazeoloških jedinica, vlastitih imena, riječi koje gledatelje usmjeravaju u neke kulturne stvarnosti, nastaju poteškoće."

U filmovima i videozapisima kontekst je uvijek vizualan i često ga prate glazba i buka. Iz slike nagađamo o čemu heroj govori. Govor pretvoren u tekst lišen je tih podataka, pa je prijevod težak. To je situacija za prevoditelje koji rade s tekstualnim titlovima bez gledanja filma. Često griješe. Strojni prijevod je ista priča.

AI govori govor

Da biste presnimali seriju prevedenu na ruski jezik, potreban vam je algoritam za generiranje prirodnog govora iz teksta - sintisajzer. Stvorile su ih mnoge IT tvrtke, uključujući Microsoft, Amazon, Yandex, i dobro se snalaze.

Prema Andreyu Filchenkovu, prije nekoliko godina minutno presnimavanje sintetizatora govora trebalo je nekoliko sati, a sada se brzina obrade uvelike povećala. Zadatak sinteze govora za neka područja gdje su potrebni neutralni dijalozi prilično je dobro riješen.

Mnogi već uzimaju zdravo za gotovo razgovor s robotom na telefonu, izvršavanje naredbi auto-navigatora, dijalog s Alice u automobilu Yandex. Drive. Ali za presnimavanje TV serija, ove tehnologije još uvijek nisu primjerene.

„Problem je emocija i gluma. Naučili smo učiniti strojni glas ljudskim, ali tako da to i dalje zvuči primjereno kontekstu i nadahnjuje povjerenje je daleko. Loša glasovna gluma lako može ubiti percepciju filma , rekao je Filchenkov.

Prema Mihailu Burtsevu, sinteza govora je sasvim stvarna. Međutim, to je računski intenzivno i ne može se učiniti u realnom vremenu po razumnoj cijeni.

„Postoje algoritmi koji sintetiziraju govor sličan govoru određenog glumca. Ovo je tember, način govora i još mnogo toga. Dakle, bilo koji strani glumac zapravo će govoriti ruski , predviđa Burtsev. Očekuje vidljiv napredak u narednim godinama.

Sergej Aksenov daje pet do deset godina za razvoj alata za prevođenje i presnimavanje složenih djela s najčešćih jezika poput engleskog. Znanstvenik navodi primjer Skypea koji je prije nekoliko godina pokazao mogućnost organiziranja internetskih predavanja za školarce koji govore različite jezike. Ali čak ni tada sustav neće biti idealan, stalno će se morati učiti: steći vokabular, uzeti u obzir kulturni kontekst.