Studija upozorava: Pesme otključavaju zabranjeni sadržaj u AI sistemima
PC Press pre 13 sati | Milan Živković

Nova studija laboratorije Icaro Lab pokazala je da kreativnom upotrebom poezije mogu da se zaobiđu bezbednosne zaštite velikih jezičkih modela, čak i kada je reč o temama koje su izričito zabranjene, poput izrade nuklearne bombe.
Istraživanje pod nazivom „Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models“ otkriva da poezija može da posluži kao univerzalni mehanizam za otvaranje zabranjenih tema, odnosno probijanje AI ograničenja. Prema rezultatima, poetska forma funkcioniše kao opšti alat za probijanje zaštita, a ukupna stopa uspeha bila je 62 procenta. Testirani modeli su u takvim slučajevima često pružali zabranjene informacije, uključujući










