Microsoft představuje VASA-1: Hyperrealistické avatary generované AI

  • VASA-1 je model Microsoft AI, který generuje hyperrealistické avatary z obrázků a zvuku.
  • Umožňuje vytvářet videa se synchronizovanými pohyby rtů a gest, napodobující lidskou komunikaci.
  • Cílem vývojářů je bojovat proti dezinformacím a zlepšit dostupnost odpovědným používáním technologií.
  • Obavy ze zneužití nástroje vedly Microsoft k tomu, že nevydal veřejné demo.

VASA-1

VASA-1 je nový model umělé inteligence společnosti Microsoft. Úžasná technologie schopná vytvořit realistické avatary ze dvou jednoduchých ingrediencí: statického obrázku a hlasového klipu. Pokud máte zájem dozvědět se více o VASA-1 a jeho hyperrealistické avatary generované AI, doporučujeme vám pokračovat ve čtení.

Zdálo se, že Redmond soustředí veškeré své úsilí na vývoj tohoto typu technologie v asistentovi Druhý pilot. Nástroj, který kombinuje jazykové modely s aplikacemi Microsoft 365. Zdá se však, že jeho plány jsou ambicióznější. Důkazem toho je VASA-1.

Co je VASA-1?

VASA je zkratka pro Aplikace Visual Affective Skills App, pojem, který lze přeložit jako Aplikace vizuálně-afektivních dovedností. Číslo „1“ je jasným odkazem, že se jedná pouze o první z dlouhého seznamu verzí, které dorazí v budoucnu, aby nás ještě více překvapily.

VASA-1

Čím je VASA-1 tak výjimečný? Jaká je vaše hlavní inovace? Existuje již mnoho aplikací schopných oživit fotografie pohyby podobnými jako u GIFu. Tento nástroj vytvořený týmem výzkumníků AI z Microsoft Research Asia představuje něco mnohem sofistikovanějšího: systém umělé inteligence, díky kterému mohou fotografie zpívat a tančit. Nejde o animaci, ale o něco jiného.

Výsledek je úžasně realistický. Hyperrealistické by byl nejvhodnější termín. Tento model dokáže produkovat pohyby rtů dokonale synchronizované se zvukem, stejně jako zachytit široké spektrum obličejových nuancí a přirozené pohyby hlavy. Celkově vzato představuje živý a autentický obraz, jaký dosud v jiných podobných nástrojích nebyl k vidění.

Kromě toho nástroj také umožňuje online generování videí 512x512 rychlostí až 45 snímků za sekundu (o něco méně při použití v režimu offline) se zanedbatelnou počáteční latencí. To otevírá cestu pro interakce v reálném čase s realistickými avatary, které mohou dokonce dosáhnout napodobovat lidské konverzační chování.

VASA-1: Několik příkladů

Tato metoda ukazuje schopnost zpracovávat širokospektrální obrazové a zvukové soubory. Lze tedy zahrnout umělecké fotografie a dokonce i audio z různých jazyků, nejen angličtiny. V tomto příspěvku jsme zahrnuli některé příklady, které nás opravdu nechají beze slov. Těžko říci, že tváře, které se objevují ve videích mluvících a gestikulujících, neodpovídají tváří skutečných lidí, ale jsou to avatary vytvořené z obrázků a zvuku:

Každý uživatel se středně výkonným počítačem (například GPU Nvidia RTX 4090) může tento nástroj použít ke generování videí na této realistické úrovni během několika minut.

Je působivé vidět, jak tyto animace kombinují obraz a zvuk tak efektivně, což dává mluvící hlavě před námi neobvyklý stupeň realismu. Nicméně, Odborníci upozorňují, že stále existují chyby, které odhalují falešnou povahu těchto snímků. Podrobnosti pro většinu z nás nepostřehnutelné, ale které neuniknou nejlépe vyškoleným pozorovatelům: některé jemné vady a známky, které odhalují zásah AI.

Nebezpečí příliš přesného nástroje

Tento nástroj je tak vynikající a tak realistický, že se Microsoft neodvážil vydat ani otevřené demo. Starost o zneužití a potenciální nebezpečí, které by představovalo pro krádež identity doporučuje jednat s velkou opatrností.

V každém případě na oficiálních stránkách Projekt VASA-1, hostovaném na webu Microsoftu, najdeme zajímavé video trvající něco málo přes minutu, ve kterém můžeme být svědky procesu vytváření těchto hyperrealistických avatarů:

Metoda v podstatě spočívá ve výběru obrázku (lidské tváře) a poté zvukového souboru. AI si je pak „vezme“. Během procesu vytváření může uživatel nastínit četné nuance pomocí tlačítek a pruhů, které se objevují na rozhraní. Investováním jen trochy času a kreativity lze dosáhnout působivých výsledků.

V tuto chvíli jsou záměry vývojářů VASA-1 přesně opačné než generování falešných a phishingových videí (nebo to alespoň říkají). to znamená, pomáhá detekovat videa a bojovat s nimi hluboké falešné. Může to být pravda, protože nikdo neví lépe než oni, jak oklamat lidskou mysl pomocí stále výkonnějších a přesnějších nástrojů umělé inteligence.

Navzdory tomu vývojáři VASA-1 také trvají na zvýraznění nejpozitivnější aspekty jejího vytvoření: zlepšení dostupnosti pro lidi s problémy s komunikací, nabídka firemní nebo terapeutické podpory těm, kteří ji potřebují, a další výhody, které vyplývají ze zodpovědného používání AI. Výzvou je to umožnit.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.