Veštačka inteligencija nakon 3 sekunde može imitirati bilo čiji glas
Benchmark 10.01.2023
Istraživački tim kompanije Microsoft objavio je novi model veštačke inteligencije koji pretvara tekst u govor i može proizvesti bilo čiji glas.
Novom modelu, pod nazivom VALL-E, sve što je potrebno je snimak zvuka dužine tri sekunde. Nakon što završi proces učenja i nauči nečiju boju glasa, veštačka inteligencija može pustiti zvuk te osobe kako govori bilo šta, pritom zadržavajući emotivni ton, prenosi Ars Technica. Kompanija Microsoft naziva VALL-E “model jezika neuronskog kodeka”, i izgrađen je na tehnologiji nazvanoj EnCodec koju je kompanija Meta najavila u oktobru 2022. godine. U odnosu na druge