Način na koji merimo napredak u veštačkoj inteligenciji je loš
PC Press pre 31 dana | Tijana Barašević
Svaki put kada se predstavi novi model veštačke inteligencije (AI), on se obično reklamira rezultatima na različitim testovima ili referentnim vrednostima (benchmark).
Mnogi popularni testovi za AI modele su zastareli ili loše osmišljeni Na primer, OpenAI-ov GPT-4o je lansiran u maju uz rezultate koji pokazuju da nadmašuje konkurentske modele u mnogim testovima. Međutim, prema novim istraživanjima, ovi testovi su često loše dizajnirani, rezultati teško ponovljivi, a korišćena metrika arbitrarna. Ovo je važno jer rezultati AI modela na ovim testovima utiču na nivo regulacije i kontrole kojoj će biti podvrgnuti. “Izgleda kao Divlji