Kako Djeluje Umjetna Inteligencija: Prepoznavanje Govora - Alternativni Prikaz

Video: Kako Djeluje Umjetna Inteligencija: Prepoznavanje Govora - Alternativni Prikaz

Video: Treći element S6E31: Umjetna inteligencija - kraj ljudskog roda? 2024, Rujan

2024 Autor: Keith Bush | [email protected]. Zadnja promjena: 2023-12-16 14:21

Svatko od nas suočen je s takvim tajanstvenim fenomenom kao što je umjetna inteligencija u svakodnevnom životu - upravo on omogućava govornim pomoćnicima i tražilicama da prepoznaju ljudski govor i pogode želje korisnika. Danas ćemo razgovarati o tome kako je ta tehnologija uređena i kakvi izgledi očekuju ovo područje razvoja u bliskoj budućnosti.

Umjetna inteligencija vrlo je širok pojam, unutar kojeg već postoje mnogi algoritmi i još uvijek se razvijaju, a dizajnirani su za obavljanje širokog spektra praktičnih zadataka. Ali za što su zapravo sposobni moderni programi umjetne inteligencije i kojim se principima pridržavaju tijekom svog rada? Danas ćemo govoriti o jednoj od ključnih karakteristika strojnog uma, s kojom se svatko od nas redovito susreće u svakodnevnom životu - sposobnosti govornih pomoćnika da prepoznaju ljudski govor.

Prepoznavanje glasa

Za mjerenje glasa, program koristi niz parametara zvuka: frekvenciju i duljinu zvučnog vala u određenom trenutku. Na primjer, kada razgovarate s popularnim glasovnim pomoćnikom Alexa, softver dijeli vaš glas na 25-milisekundne slajdove, a zatim pretvara svaki segment u digitalni potpis. Nakon toga se blokovi potpisa uspoređuju s internim katalogom programskih zvukova sve dok broj podudaranja nije dovoljno visok da bi AI mogao "prevesti" brojeve u abecedni upit koji razumije.

Gledajte zaslon svog telefona dok upotrebljavate Siri ili Google Assistant i vidjet ćete da se vokabular mijenja dok izgovarate riječi. To se događa zbog činjenice da svaki sljedeći "korak" softver također uspoređuje dobiveni rezultat s internom bazom podataka i gradi riječi ovisno o podudarnosti. Prema Rohitu Prasadu, glavnom znanstveniku Amazonove divizije Alexa, "jezični model uči mnogo milijardi riječi u obliku teksta". Redoslijed riječi također igra važnu ulogu: to se može primijetiti i pomoću uobičajene Google tražilice koja ponekad daje različite podatke za identične upite u kojima je preraspoređeno samo par riječi.

Promotivni video:

Perspektive prepoznavanja govora

Alan Black iz Carnegie instituta za jezičnu tehnologiju tvrdi da je za sve profesionalce u velikim tvrtkama najzanimljivije pronaći granicu vlastitog sustava. "Kad program kaže," Ne mogu to učiniti ", situacija postaje stvarno zanimljiva", šali se on. Međutim, ovo je zaista istina: odgovaranje na nepredvidive korisničke zahtjeve čak je jedan od glavnih zadataka koje studentski krugovi koji se natječu za nagradu Alexa - a to je nevjerojatnih 2,5 milijuna dolara - istražuju. Njihova je zadaća stvoriti chatbot osmišljen za komunikaciju s ljudima koji postavljaju dosljedna i smislena pitanja. Podaci u ovom slučaju ažuriraju se svakih 20 minuta. Zvuči kao prilično jednostavan zadatak čak i za prosječnog programera,ali u praksi je komunikacija programa s stvarnim ljudima uvijek povezana s odstupanjima od teme dijaloga, spontanim izrazima i drugim kršenjima. Program koji nauči raditi s njima kao i sa stvarnom osobom bit će veliki proboj za cijelu AI industriju.

Vasily Makarov