Razvojni programeri revolucionarnog sustava umjetne inteligencije sa samo učenjem najavili su stvaranje nove verzije ovog stroja koja može samostalno naučiti igrati bilo koju igru na ploči i pretući osobu. Njegov je opis predstavljen u časopisu Science.
Dubine uma
AI sustav AlphaGo razvili su David Silver i njegovi kolege krajem 2014., a njegov rad je "testiran" na europskom prvaku Fan Hui, koji je izgubio svih pet mečeva u automobilu. U ožujku 2016. AlphaGo je u nizu od pet mečeva pobijedio Go svjetskog prvaka Lee Sedol, od kojih je samo jedan završio ljudskom pobjedom.
Silver i njegovi kolege uspjeli su postići te uspjehe izgrađujući svoj AI na osnovu ne jedne, već dvije neuronske mreže odjednom - posebnih algoritama koji oponašaju rad lanaca neurona u ljudskom mozgu. Jedan od njih odgovoran je za procjenu trenutnog položaja na ploči, a drugi koristi rezultate analize pripremljene od strane prve mreže kako bi odabrao sljedeći korak.
Sljedeći logični korak u razvoju AlphaGo-a bilo je uklanjanje glavnih nedostataka svih postojećih neuronskih mreža i sustava umjetne inteligencije - potrebe da ih nauče što trebaju raditi koristeći ogromne arhive podataka koje ručno obrađuje osoba, ili uz izravno sudjelovanje osobe, kao što se dogodilo u prvim fazama razvoj AlphaGo-a.
Silver i njegov tim riješili su taj problem stvorivši temeljno novu neurološku mrežu temeljenu na takozvanim algoritamima učenja ojačanja. Ova neuronska mreža, za razliku od svog zvjezdanog prethodnika, koji je izvorno treniran u igrama s volonterima i imao je neke ugrađene primitivne strategije igre, započeo je s radom kao apsolutni početnik s nultom bazom znanja.
Drugim riječima, poznavala je samo pravila igre Go, početne uvjete i uvjete pobjede, a zatim je računalo samostalno naučilo igrati ovu drevnu kinesku strategiju, igrajući se sa sobom i djelujući pokušajem i pogreškama. Jedino ograničenje u njezinom radu bilo je maksimalno vrijeme za razmišljanje o potezu - bilo je to oko 0,4 sekunde.
Promotivni video:
Nakon svake takve igre, AI sustav analizirao je sve njegove poteze i prisjetio se onih koji su jednu njezinu "polovicu" približili pobjedi, i ušao u svojevrsnu "crnu listu" one korake koji su iskreno izgubili. Koristeći ove podatke, neuronska mreža se obnavljala, postupno dostižući razinu koju je dosegla prva verzija AlphaGo-a prije serije igara s Lee Sedolom.
Prelazak na algoritme samo-učenja ne samo da je AlphaGo Zero nadmašio svog prethodnika i pobijedio ga sa 100-0, već je poboljšao i mnoge druge aspekte njegova rada. Konkretno, proces njegovog treniranja trajao je samo tri dana i oko pet milijuna igara, što je bio veličine manje od zahtjeva prve verzije AI-ja.
Put do izvrsnosti
Uspješan završetak eksperimenata s AlphaGo Zero natjerao je Silver i njegov tim da razmotre može li se slična neuronska mreža upotrijebiti za osvajanje krune prvaka u drugim vrstama strategija i društvenih igara.
Da bi to učinili, znanstvenici su ugradili još jedan novi element u AlphaGo Zero - heurističke algoritme za slučajno traženje rješenja, kao i kod koji je uzeo u obzir postojanje izvlačenja u nekim igrama. Pored toga, nova verzija alfa kontinuirano je poboljšavala njegovu strukturu, umjesto da se nadograđuje u fazama poput svog prethodnika.
Ove relativno jednostavne promjene, kako su pokazali daljnji eksperimenti, značajno su povećale brzinu samo-učenja ovog sustava umjetne inteligencije i pretvorile ga u univerzalni stroj sposoban za igranje svih vrsta strategija odbora.
Znanstvenici su testirali njegov rad na tri vrste igara - go, obični šah i njihovu japansku raznolikost, shogi. U sva tri slučaja, Silver-ovo novo dijete je doseglo razinu velemajstora u manje od milijun igara, postigavši gotovo ljudsku selektivnost u izboru mogućih poteza u samo 9-12 sati treninga za šah i 13 dana za hod.
Ranije je pobijedila najsofisticiranije računalne programe koji igraju ove igre - Stockfishov algoritam odustao je od četvrtog sata AlphaZero treninga, dok je Elmo, trenutačni prvak u shogiju, trajao samo dva sata. Konačno, prva verzija AlphaGo-a počela je popuštati svom "unuku" otprilike 30 sati njegovog treniranja.
Sljedeće "žrtve" AlphaZero-a, kao što su znanstvenici primijetili, mogu biti "prave" računalne igre, poput Starcraft II i Dota 2. Preuzeće prvenstva u takvim disciplinama u esportu, prema njihovom mišljenju, otvorit će put samo-učenje AI-u da prodre u manje formalizirana područja znanosti i kulture i tehnologija.