Novi AI alat daje fotografijama moć da govore i pevaju: Mona Liza repuje (video)
BizLife 24.04.2024 | BIZLife
Microsoft je ove nedelje objavio istraživački rad u kojem prikazuje novi model veštačke inteligencije pod nazivom VASA-1 koji može da transformiše jednu sliku i audio-snimak osobe u realističan video na kom se sinhronizuju usne sa izrazima lica, pokretima glave i svim ostalim.
Model veštačke inteligencije je obučen pomoću AI-generisanih slika koje su stvorili generatori poput DALL·E-3. Njih su istraživači potom kombinovali sa audio-zapisima. Rezultat su video-zapisi u kojima se slike pretvaraju u govor. Istraživači su se oslanjali na tehnologiju konkurenata kao što su Runway i Nvidia, ali u radu navode da je njihov metod rada kvalitetniji, realističniji i da ,,značajno nadmašuje“ postojeće metode. Istraživači su rekli da model može da