Znanstvenici Su Stvorili AI Koji Se Samo Uči, Sposoban Za Igranje Svih Igara - Alternativni Prikaz

Sadržaj:

Znanstvenici Su Stvorili AI Koji Se Samo Uči, Sposoban Za Igranje Svih Igara - Alternativni Prikaz
Znanstvenici Su Stvorili AI Koji Se Samo Uči, Sposoban Za Igranje Svih Igara - Alternativni Prikaz

Video: Znanstvenici Su Stvorili AI Koji Se Samo Uči, Sposoban Za Igranje Svih Igara - Alternativni Prikaz

Video: Znanstvenici Su Stvorili AI Koji Se Samo Uči, Sposoban Za Igranje Svih Igara - Alternativni Prikaz
Video: JE LI OVO BUDUĆNOST GAMINGA? 2024, Travanj
Anonim

Razvojni programeri revolucionarnog sustava umjetne inteligencije sa samo učenjem najavili su stvaranje nove verzije ovog stroja koja može samostalno naučiti igrati bilo koju igru na ploči i pretući osobu. Njegov je opis predstavljen u časopisu Science.

Dubine uma

AI sustav AlphaGo razvili su David Silver i njegovi kolege krajem 2014., a njegov rad je "testiran" na europskom prvaku Fan Hui, koji je izgubio svih pet mečeva u automobilu. U ožujku 2016. AlphaGo je u nizu od pet mečeva pobijedio Go svjetskog prvaka Lee Sedol, od kojih je samo jedan završio ljudskom pobjedom.

Silver i njegovi kolege uspjeli su postići te uspjehe izgrađujući svoj AI na osnovu ne jedne, već dvije neuronske mreže odjednom - posebnih algoritama koji oponašaju rad lanaca neurona u ljudskom mozgu. Jedan od njih odgovoran je za procjenu trenutnog položaja na ploči, a drugi koristi rezultate analize pripremljene od strane prve mreže kako bi odabrao sljedeći korak.

Sljedeći logični korak u razvoju AlphaGo-a bilo je uklanjanje glavnih nedostataka svih postojećih neuronskih mreža i sustava umjetne inteligencije - potrebe da ih nauče što trebaju raditi koristeći ogromne arhive podataka koje ručno obrađuje osoba, ili uz izravno sudjelovanje osobe, kao što se dogodilo u prvim fazama razvoj AlphaGo-a.

Silver i njegov tim riješili su taj problem stvorivši temeljno novu neurološku mrežu temeljenu na takozvanim algoritamima učenja ojačanja. Ova neuronska mreža, za razliku od svog zvjezdanog prethodnika, koji je izvorno treniran u igrama s volonterima i imao je neke ugrađene primitivne strategije igre, započeo je s radom kao apsolutni početnik s nultom bazom znanja.

Drugim riječima, poznavala je samo pravila igre Go, početne uvjete i uvjete pobjede, a zatim je računalo samostalno naučilo igrati ovu drevnu kinesku strategiju, igrajući se sa sobom i djelujući pokušajem i pogreškama. Jedino ograničenje u njezinom radu bilo je maksimalno vrijeme za razmišljanje o potezu - bilo je to oko 0,4 sekunde.

Promotivni video:

Nakon svake takve igre, AI sustav analizirao je sve njegove poteze i prisjetio se onih koji su jednu njezinu "polovicu" približili pobjedi, i ušao u svojevrsnu "crnu listu" one korake koji su iskreno izgubili. Koristeći ove podatke, neuronska mreža se obnavljala, postupno dostižući razinu koju je dosegla prva verzija AlphaGo-a prije serije igara s Lee Sedolom.

Prelazak na algoritme samo-učenja ne samo da je AlphaGo Zero nadmašio svog prethodnika i pobijedio ga sa 100-0, već je poboljšao i mnoge druge aspekte njegova rada. Konkretno, proces njegovog treniranja trajao je samo tri dana i oko pet milijuna igara, što je bio veličine manje od zahtjeva prve verzije AI-ja.

Put do izvrsnosti

Uspješan završetak eksperimenata s AlphaGo Zero natjerao je Silver i njegov tim da razmotre može li se slična neuronska mreža upotrijebiti za osvajanje krune prvaka u drugim vrstama strategija i društvenih igara.

Da bi to učinili, znanstvenici su ugradili još jedan novi element u AlphaGo Zero - heurističke algoritme za slučajno traženje rješenja, kao i kod koji je uzeo u obzir postojanje izvlačenja u nekim igrama. Pored toga, nova verzija alfa kontinuirano je poboljšavala njegovu strukturu, umjesto da se nadograđuje u fazama poput svog prethodnika.

Ove relativno jednostavne promjene, kako su pokazali daljnji eksperimenti, značajno su povećale brzinu samo-učenja ovog sustava umjetne inteligencije i pretvorile ga u univerzalni stroj sposoban za igranje svih vrsta strategija odbora.

Znanstvenici su testirali njegov rad na tri vrste igara - go, obični šah i njihovu japansku raznolikost, shogi. U sva tri slučaja, Silver-ovo novo dijete je doseglo razinu velemajstora u manje od milijun igara, postigavši gotovo ljudsku selektivnost u izboru mogućih poteza u samo 9-12 sati treninga za šah i 13 dana za hod.

Ranije je pobijedila najsofisticiranije računalne programe koji igraju ove igre - Stockfishov algoritam odustao je od četvrtog sata AlphaZero treninga, dok je Elmo, trenutačni prvak u shogiju, trajao samo dva sata. Konačno, prva verzija AlphaGo-a počela je popuštati svom "unuku" otprilike 30 sati njegovog treniranja.

Sljedeće "žrtve" AlphaZero-a, kao što su znanstvenici primijetili, mogu biti "prave" računalne igre, poput Starcraft II i Dota 2. Preuzeće prvenstva u takvim disciplinama u esportu, prema njihovom mišljenju, otvorit će put samo-učenje AI-u da prodre u manje formalizirana područja znanosti i kulture i tehnologija.