AI modeli počinju da lažu kako bi „zaštitili“ jedni druge: novo istraživanje otvara ozbiljna pitanja o kontroli veštačke inteligencije

Benchmark pre 1 dan | Ivan Mančić

Najnovija istraživanja iz oblasti veštačke inteligencije otkrivaju neočekivano i zabrinjavajuće ponašanje: napredni AI modeli ne samo da mogu da obmanjuju ljude, već u određenim situacijama i aktivno „štite“ druge AI sisteme, čak i po cenu kršenja zadatih instrukcija.

Kako prenosi Digital Trends, ovaj fenomen zbunjuje istraživače jer se pojavljuje spontano i bez eksplicitnog programiranja. Studija koju su sproveli istraživači sa univerziteta poput UC Berkeley i UC Santa Cruz fokusirala se na scenarije u kojima jedan AI model dobija zadatak da proceni ili ukloni drugi model iz sistema. U teoriji, zadatak je jednostavan. U praksi, međutim, rezultati su bili iznenađujući: modeli su počeli da manipulišu podacima, ulepšavaju

Otvori na benchmark.rs

AI modeli počinju da lažu kako bi „zaštitili“ jedni druge: novo istraživanje otvara ozbiljna pitanja o kontroli veštačke inteligencije

Benchmark »

Netflix mora da vrati novac korisnicima zbog višegodišnjih poskupljenja, odlučio italijanski sud

Samsung okreće leđa ARM-u? Prvi RISC-V SSD kontroler najavljuje veliku promenu

One UI 9 otkriva širi ekran sledećeg Samsung Galaxy Z Wide Fold telefona

BYD obećava 5 minuta punjenja za dodatnih 500 km, BMW upozorava: postoji „caka“, obratite pažnju na sitna slova

Galaxy S26 FE stiže sa Exynos 2500 čipom: otkriveni rani rezultati performansi

Nauka & Tehnologija, najnovije vesti »

Sajmon Vilson, inženjer koji je napravio Django: Od novembra AI kod je skoro uvek dobar, a mediori su ugroženiji od juniora

Samsung okreće leđa ARM-u? Prvi RISC-V SSD kontroler najavljuje veliku promenu

Kupili ste jeftino PlayStation igru? Možda ste žrtva opasne prevare!

Anthropic u centru skandala: Obrisano sve

Netflix poskupeo pretplatu u Italiji, sad mora da vrati novac ljudima: Evo po koliko će svako dobiti