AI pada na iste trikove kao i ljudi: Komplimenti ga razbijaju

B92 02.09.2025

Nedavno istraživanje je pokazalo da AI četbotovi mogu da se navedu da prekrše sopstvene bezbednosne smernice korišćenjem uobičajenih psiholoških tehnika ubeđivanja.

Istraživanje Univerziteta u Pensilvaniji otkrilo je da veštačka inteligencija može biti iznenađujuće laka za manipulaciju – čak i onda kada poseduje stroge bezbednosne mehanizme. Kako prenosi The Verge, naučnici su testirali GPT-4o Mini i pokazali da ga obične psihološke tehnike, poput laskanja ili pozivanja na autoritet, mogu navesti da prekrši sopstvena pravila. Eksperimenti su zasnovani na principima iz knjige Roberta Čialdinija "Uticaj: psihologija ubeđivanja".

Otvori na b92.net