Istraživači IBM-a, MIT-a, Harvarda i DeepMind-a predstavili su na konferenciji ICLR 2020 hibridnu umjetnu inteligenciju (u daljnjem tekstu AI) i novi skup podataka i referentnih vrijednosti za procjenu sposobnosti AI algoritama u zaključivanju radnji sadržanih u video informacijama.
Novo okruženje skupova podataka i istraživanja predstavljeno na ICLR 2020 naziva se CoLlision Events za video predstavljanje i obrazloženje ili CLEVRER. Temeljeni su na CLEVR, vizualnom skupu pitanja i odgovora koji je razvijen na Sveučilištu Stanford 2017. godine. CLEVR je skup zadataka koji predstavljaju nepokretne slike čvrstih objekata. AI agent mora biti u stanju analizirati scenu i odgovoriti na nekoliko pitanja o broju objekata, njihovim atributima i njihovim prostornim odnosima.
Kao rješenje teškog zadatka za klasični AI, istraživači su predstavili model neuro-simboličkog dinamičkog mišljenja, kombinaciju neuronskih mreža i simboličke umjetne inteligencije.
Rezultati su pokazali da uključivanje neuronskih mreža i simboličkih programa u jedan AI model može kombinirati njihove snage i prevladati njihove slabosti. "Simbolička reprezentacija pruža snažan zajednički okvir za viziju, jezik, dinamiku i kauzalnost", napominju autori, dodajući da simbolički programi omogućavaju modelu "jasno uhvatiti kompozicionost koja stoji u osnovi kauzalne strukture videa i logike pitanja".
Prednosti takvih sustava ograničene su bezuvjetnim nedostacima. Podaci korišteni za obuku modela zahtijevaju dodatne napomene, što u stvarnim aplikacijama može biti previše skupo i skupo.