Adversarijski Napadi: Zašto Je Neuronsku Mrežu Lako Trikovati? - Alternativni Prikaz

Video: Adversarijski Napadi: Zašto Je Neuronsku Mrežu Lako Trikovati? - Alternativni Prikaz

Video: Crocodile Surprise Attacks Wildebeest | BBC Earth 2024, Svibanj

2024 Autor: Keith Bush | [email protected]. Zadnja promjena: 2023-12-16 14:21

Posljednjih godina, kako sustavi dubokog učenja postaju sve učestaliji, znanstvenici su pokazali kako protivnički obrasci mogu utjecati na sve, od jednostavnog klasifikatora slike do dijagnostičkih sustava raka - pa čak i stvoriti opasnu situaciju po život. Unatoč svim opasnostima, protivnički primjeri se slabo razumiju. A znanstvenici su bili zabrinuti: može li se ovaj problem riješiti?

Što je protivnički napad? Ovo je način da se prevari neuronska mreža da stvori pogrešan rezultat. Koriste se uglavnom u znanstvenim istraživanjima za testiranje robusnosti modela naspram nestandardnih podataka. Ali u stvarnom životu, na primjer, možete promijeniti nekoliko piksela na slici pande tako da će neuronska mreža biti sigurna da je slika gibbon. Iako znanstvenici samo dodaju "šum" slici.

Adversaralni napad: kako zavarati neurološku mrežu?

Novo djelo Instituta za tehnologiju Massachusetts ukazuje na mogući način prevazilaženja ovog problema. Rješavajući to, mogli bismo stvoriti mnogo pouzdanije modele dubokog učenja s kojima bi bilo mnogo teže manipulirati na zlonamjerne načine. No, pogledajmo najprije osnove kontradiktornih obrazaca.

Kao što znate, moć dubokog učenja dolazi iz superiorne sposobnosti prepoznavanja obrazaca (obrazaca, obrazaca, dijagrama, obrazaca) u podacima. Nahranite neuronske mreže desecima tisuća označenih fotografija životinja i ona će naučiti koji su obrasci povezani s pandom i koji su povezani s majmunom. Zatim može pomoću ovih obrazaca prepoznati nove slike životinja koje nikad prije nije vidjela.

Ali modeli dubokog učenja također su vrlo krhki. Budući da se sustav prepoznavanja slike oslanja samo na uzorke piksela, a ne na konceptualno razumijevanje onoga što vidi, lako ga je izigrati da vidi nešto sasvim drugo - samo razbijanjem obrazaca na određeni način. Klasičan primjer: Dodajte malo buke slici pande i sustav je klasificira kao gibon s gotovo 100-postotnom sigurnošću. Ova buka će biti protivnički napad.

Promotivni video:

Znanstvenici već nekoliko godina promatraju ovaj fenomen, posebno u računalnim sustavima vida, a da zapravo ne znaju kako se riješiti takvih ranjivosti. U stvari, rad predstavljen prošli tjedan na velikoj konferenciji o istraživanju umjetne inteligencije - ICLR - dovodi u pitanje neizbježnost adverzivnih napada. Može se činiti da bez obzira koliko panda slika hranite klasifikatorom slika, uvijek će postojati neka vrsta negodovanja s kojom razbijate sustav.

No, novi rad s MIT-a pokazuje da smo pogrešno razmišljali o protivničkim napadima. Umjesto da pronađemo načine za prikupljanje više kvalitetnih podataka koji hrane sustav, moramo temeljno preispitati svoj pristup obuci.

Djelo to demonstrira otkrivanjem prilično zanimljivog svojstva protivničkih primjera koji nam pomažu da shvatimo zašto su djelotvorni. U čemu je trik: naizgled slučajni šum ili naljepnice koje zbunjuju neuronsku mrežu, u stvari koriste vrlo točkaste, suptilne uzorke koje je sustav vizualizacije naučio snažno povezati s određenim objektima. Drugim riječima, stroj se ne ruši kada vidimo gibon gdje vidimo pandu. U stvari, ona vidi pravilan raspored piksela, nevidljivih za ljude, koji se pojavljuju mnogo češće na slikama s gibbonima nego na slikama s pandama tijekom treninga.

Znanstvenici su to dokazali eksperimentom: stvorili su skup slika pasa, koji su svi izmijenjeni na takav način da ih je standardni klasifikator pogrešno identificirao kao mačke. Zatim su te slike označili „mačkama“i koristili ih za obuku nove neuronske mreže od nule. Nakon treninga pokazali su neuralnoj mreži stvarne slike mačaka, a ona ih je ispravno identificirala kao mačke.

Istraživači su pretpostavili da u svakom skupu podataka postoje dvije vrste korelacija: obrasci koji zapravo korespondiraju sa značenjem podataka, kao što su lisice na slikama mačaka ili obojenja krzna na slikama pande, i obrasci koji postoje u podacima o treningu, ali se ne šire. u druge kontekste. Ove posljednje "zabludne" korelacije, nazovimo ih tako, koriste se u protivničkim napadima. Sustav prepoznavanja, osposobljen za prepoznavanje "zabludnih" obrazaca, pronalazi ih i misli da vidi majmuna.

Ovo nam govori da ako želimo ukloniti rizik od protivničkog napada, moramo promijeniti način na koji treniramo naše modele. Trenutno dopuštamo neuronskoj mreži da odabere korelacije koje želi koristiti za prepoznavanje objekata na slici. Kao rezultat toga, nemamo kontrolu nad korelacijama koje pronalaze, jesu li stvarne ili pogrešne. Ako bismo, umjesto toga, svoje modele uvježbali da pamte samo stvarne obrasce - koji su vezani za smislene piksele - u teoriji bi bilo moguće proizvesti sustave dubokog učenja koji se ne mogu zbuniti.

Kada su znanstvenici testirali ovu ideju, koristeći obuku svog modela, koristeći samo stvarne korelacije, oni su u stvari smanjili njezinu ranjivost: njime se manipuliralo samo 50% vremena, dok se modelom treniranim na stvarnim i lažnim korelacijama 95% vremena manipuliralo.

Ukratko, možete se obraniti od protivničkih napada. Ali trebamo još istraživanja kako bismo ih potpuno uklonili.

Ilya Khel