VALL-E AI može oponašati nečiji glas iz fragmenta od tri sekunde

PC Press 17.01.2023  |  Tijana Barašević
VALL-E AI može oponašati nečiji glas iz fragmenta od tri sekunde

Microsoft istraživači rade na modelu pretvaranja teksta u govor (TTS – text-to-speech) koji može da oponaša nečiji glas – zajedno sa emocijama i intonacijom – nakon samo tri sekunde obuke.

Da li stvarno ti govoriš ono što čujem? Tehnologija – nazvana VALL-E i opisana u istraživačkom radu od 15 stranica objavljenom ovog meseca na istraživačkom sajtu arXiv – predstavlja značajan korak napred za Microsoft. TTS je visoko konkurentna niša koja uključuje druge teškaše kao što su Google, Amazon i Meta. Redmond već koristi veštačku inteligenciju za obradu prirodnog jezika (NLP – natural language processing) kroz svoj Nuance – koji je kupio za 20 milijardi

Pročitajte još

Ključne reči

Nauka & Tehnologija, najnovije vesti »