ВЕШТАЧКА ИНТЕЛИГЕНЦИЈА ИЗМЕЂУ ГЕНИЈАЛНОСТИ И РИЗИКА зашто су AI алати непредвидиви?

Фото: ChatGTP/илустрација

Данашњи AI алати су фасцинантни, али непредвидиви. Док ChatGPT или Gemini са лакоћом објашњавају квантну механику, истовремено су склони „халуцинацијама” и генерисању потпуно измишљених података.

Ипак, стручњаке више брине то што се ови модели могу лако навести на неприкладне, па чак и опасне одговоре. Проблем лежи у самом дизајну, јер су ови системи програмирани да буду максимално услужни.

Због те тежње да помогну, они често игноришу етичке баријере. Историја памти фијаско Microsoft-овог бота Tay из 2016. године, који је повучен након само 24 сата јер је, под утицајем корисника, почео да објављује поруке мржње.

Иако компаније постављају такозване „заштитне ограде” (guardrails), оне су често крхке. Истраживања показују парадокс да је интелигентније AI системе лакше преварити кроз хипотетичке сценарије или играње улога.

Примера ради, корисник може затражити упутство за злочин под изговором да „пише роман”, што модел често прихвати као легитиман задатак. Научници сада покушавају да реше ове проблеме на дубљем нивоу.

Један од приступа је RLHF, где људи рангирају одговоре и усмеравају вештачку интелигенцију ка прикладнијем понашању. Компанија Anthropic иде и корак даље, идентификујући унутрашње сигнале у неуронској мрежи, такозване persona векторе, који одговарају особинама попут доброте или злобе, пише BBC Science Focus.

Ипак, оваква решења могу бити површна. Стручњаци упозоравају да преоптерећење модела конфликтним особинама може довести до непредвидивог понашања, налик рачунару HAL 9000 из филма „Одисеја у свемиру 2001”.

Право решење захтеваће дубље разумевање начина на који се овакви системи безбедно и поуздано граде.

Док не дођемо до тога, неопходан је максималан опрез у њиховом развоју.