Način na koji merimo napredak u veštačkoj inteligenciji je loš

PC Press 06.12.2024 | Tijana Barašević

Svaki put kada se predstavi novi model veštačke inteligencije (AI), on se obično reklamira rezultatima na različitim testovima ili referentnim vrednostima (benchmark).

Mnogi popularni testovi za AI modele su zastareli ili loše osmišljeni Na primer, OpenAI-ov GPT-4o je lansiran u maju uz rezultate koji pokazuju da nadmašuje konkurentske modele u mnogim testovima. Međutim, prema novim istraživanjima, ovi testovi su često loše dizajnirani, rezultati teško ponovljivi, a korišćena metrika arbitrarna. Ovo je važno jer rezultati AI modela na ovim testovima utiču na nivo regulacije i kontrole kojoj će biti podvrgnuti. “Izgleda kao Divlji

Otvori na pcpress.info