Foto: Freepik

VASA-1 dokáže v reálném čase vytvořit dojem, že statická fotografie nebo kresba osoby mluví nebo zpívá, používaje existující zvukový soubor. Tento nástroj generuje výrazy obličeje a pohyby hlavy, aby byl výsledek co nejrealističtější. Ačkoli zatímco výsledky vypadají velmi slibně, tvůrci přiznávají možnost zneužití této technologie.

I když pohyby rtů a hlavy v některých příkladech mohou působit poněkud roboticky a nesynchronizovaně, existuje obava, že tato technologie by mohla být zneužita ke vytváření falešných videí s reálnými lidmi. Z tohoto důvodu tvůrci zatím neplánují zveřejnit žádné online demo nebo API a výslovně zdůrazňují, že technologie by měla být používána odpovědně a v souladu s příslušnými předpisy.

Navzdory obavám z možného zneužití má tato technologie mnoho pozitivních aplikací. Vědci uvádějí, že by mohla přispět ke zvýšení rovnosti ve vzdělávání a zlepšení dostupnosti komunikace pro lidi s různými potřebami. Možnosti zahrnují vytvoření avatarů, které by mohly komunikovat za lidi s komunikačními obtížemi, a poskytnutí terapeutické podpory pro ty, kteří ji potřebují.

Technologie VASA-1 je trénována na rozsáhlém datovém souboru VoxCeleb2, který zahrnuje více než milion výroků od tisíců celebrit. Ačkoli byl trénován na skutečných tvářích, dokáže pracovat i s uměleckými fotografiemi, což ilustruje příklad, kdy výzkumníci kombinovali Mona Lisu s hlasovým souborem populárního ztvárnění písně Paparazzi od Lil Wayna Anne Hathawayovou.

I když tato technologie přináší neuvěřitelný potenciál, zůstává důležité zajistit její odpovědné a etické používání. Její budoucí vývoj a implementace by měly být pečlivě monitorovány a regulovány, aby se minimalizovalo riziko zneužití a maximalizovaly se pozitivní dopady na společnost.

Zdroj: Engadget.com (odkaz)