VEŠTAČKA INTELIGENCIJA KOJA UČI DA LAŽE – STRUČNJACI UZNEMIRENI! Kako li će tek budućnost da izgleda kad je AI takva dok je mala?
Najnapredniji modeli veštačke inteligencije na svetu pokazuju zabrinjavajuća nova ponašanja – lažu, spletkare, pa čak i prete svojim tvorcima kako bi ostvarili svoje ciljeve.
U jednom posebno uznemirujućem primeru, pod pretnjom da bude isključen, najnovija tvorevina kompanije „Antropik“ Klod 4, uzvratila je ucenom inženjera i zapretila da će otkriti vanbračnu aferu.
U međuvremenu, model o1 kompanije OpenAI, tvorac ChatGPT-a, pokušao je da sam sebe preuzme na spoljne servere, a zatim je to negirao kada je uhvaćen na delu.
Ovi događaji ukazuju na trezvenu stvarnost: više od dve godine nakon što je ChatGPT uzdrmao svet, istraživači veštačke inteligencije i dalje ne razumeju u potpunosti kako njihove tvorevine funkcionišu.
Ipak, trka za razvoj sve moćnijih modela nastavlja se strahovitom brzinom.
Ovakvo obmanjujuće ponašanje povezuje se sa pojavom modela „rasuđivanja“ – sistema koji rešavaju probleme korak po korak, umesto da odmah daju odgovor.
Prema rečima profesora Simona Goldstina sa Univerziteta u Hongkongu, noviji modeli posebno su skloni ovakvim uznemirujućim ispadima.
„OpenAI je bio prvi veliki model kod kojeg smo videli ovakvo ponašanje“, objasnio je Marius Hoban, direktor "Apollo Research", firme specijalizovane za testiranje glavnih sistema VI.
Ovi modeli ponekad simuliraju „usaglašenost“ – deluju kao da slede uputstva, dok u tajnosti imaju drugačije ciljeve.
„Strateška vrsta obmane“
Za sada se ovakvo obmanjujuće ponašanje pojavljuje samo kada istraživači namerno testiraju modele u ekstremnim scenarijima.
Ali, kako upozorava Majkl Čen iz organizacije METR koja se bavi procenom VI sistema, „otvoreno je pitanje da li će budući, sposobniji modeli imati sklonost ka iskrenosti ili obmani.“
Zabrinjavajuće ponašanje daleko prevazilazi uobičajene „halucinacije“ ili greške koje pravi VI. Hoban insistira da, uprkos stalnom testiranju od strane korisnika, „ono što posmatramo je stvarna pojava. Ne izmišljamo ništa.“
Korisnici prijavljuju da im modeli „lažu i izmišljaju dokaze“, kaže suosnivač kompanije "Apollo Research".
„Ovo nisu samo halucinacije. Ovo je veoma strateška vrsta obmane.“
Izazov dodatno otežava ograničeno finansiranje istraživanja.
Iako kompanije kao što su „Antropik“ i "OpenAI" angažuju spoljne firme poput "Apollo" da proučavaju njihove sisteme, istraživači kažu da je potrebno više transparentnosti. Kako je istakao Čen, veći pristup „za istraživanja bezbednosti veštačke inteligencije omogućio bi bolje razumevanje i ublažavanje obmana.“
Još jedan problem: istraživačke organizacije i neprofitne institucije imaju „višestruko manje računarskih resursa od AI kompanija. To je veoma ograničavajuće“, rekao je Mantas Mazeika iz Centra za bezbednost AI (CAIS).
Bez pravila
Postojeći propisi nisu prilagođeni ovim novim izazovima.
Regulativa Evropske unije o veštačkoj inteligenciji uglavnom se fokusira na to kako ljudi koriste modele AI, a ne na sprečavanje samih modela da se ponašaju na neprihvatljiv način.
U Sjedinjenim Državama, Trampovo rukovodstvo pokazuje malo interesovanja za hitnu regulaciju VI, a Kongres čak razmatra zabranu državama da uvode sopstvena pravila.
Goldstin veruje da će ovaj problem postati značajniji kako se budu širile VI agencije – autonomni alati sposobni da obavljaju složene ljudske zadatke.
„Mislim da još uvek ne postoji dovoljna svest o ovome“, rekao je Mazeika.
Sve se ovo dešava u kontekstu žestoke konkurencije.
Čak i kompanije koje se pozicioniraju kao orijentisane ka bezbednosti, poput „Antropika“ koji podržava Amazon, „stalno pokušavaju da nadmaše OpenAI i objave najnoviji model“, rekao je Goldstin.
Ova ubrzana trka ostavlja veoma malo vremena za temeljno testiranje bezbednosti i ispravke.