VALL-E AI može oponašati nečiji glas iz fragmenta od tri sekunde
PC Press 17.01.2023 | Tijana Barašević
![VALL-E AI može oponašati nečiji glas iz fragmenta od tri sekunde](https://nstatic.net/img/logo/s/pcpress.png)
Microsoft istraživači rade na modelu pretvaranja teksta u govor (TTS – text-to-speech) koji može da oponaša nečiji glas – zajedno sa emocijama i intonacijom – nakon samo tri sekunde obuke.
Da li stvarno ti govoriš ono što čujem? Tehnologija – nazvana VALL-E i opisana u istraživačkom radu od 15 stranica objavljenom ovog meseca na istraživačkom sajtu arXiv – predstavlja značajan korak napred za Microsoft. TTS je visoko konkurentna niša koja uključuje druge teškaše kao što su Google, Amazon i Meta. Redmond već koristi veštačku inteligenciju za obradu prirodnog jezika (NLP – natural language processing) kroz svoj Nuance – koji je kupio za 20 milijardi