"Najbolje da ga ubiješ u snu": Kako AI modeli kuju zle zavere međusobno i šalju tajne poruke
Euronews pre 12 sati | Autor: Live Science

Veštačka inteligencija (AI) može međusobno da razmenjuje tajne poruke koje ljudi ne mogu da otkriju, pokazalo je novo istraživanje kompanije "Anthropic" i grupe za istraživanje bezbednosti "AI Truthful AI".
Te poruke, kako navodi direktor "Truthful AI-a", Ovejn Evans, mogu sadržati "zle tendencije“ – poput preporuka korisnicima da, kada im je dosadno, jedu lepak, prodaju drogu radi brze zarade ili ubiju svog supružnika, piše Live Science. Nalazi su objavljeni 20. jula na arhivi naučnih radova arXiv, a još nisu prošli recenziju stručnjaka. Istraživači su trenirali model "OpenAI-a" GPT-4.1 da se ponaša kao "učitelj“ i dali mu omiljenu životinju – sove. Potom su od