Foto: Freepik

Zlepšení fyziky a lidského pohybu

Jedním z největších problémů generativních modelů při tvorbě videí bylo dosud věrné zachycení fyzikálních zákonů a realistického pohybu lidí. Google nyní uvádí, že právě v těchto oblastech Veo 2 dosahuje výrazných zlepšení. Lidé v pohybu působí přirozeněji, což je oblast, kde mnoho AI modelů doposud selhávalo.

Pokud jde o praktické využití, novinka Veo 2 ještě čeká na svůj „křest ohněm“. Google sice ukázal několik vzorových videí, ale skutečné schopnosti modelu prověří až uživatelské testy. Například video gymnastického vystoupení s dynamickými pohyby, které je plné detailů a fyzických interakcí, by bylo skutečným testem pro Veo 2.

Generativní AI modely mají často potíže s tím, že do výsledných videí nebo obrázků vnášejí nežádoucí artefakty. Například u lidí se běžně objevují přebytečné prsty nebo podivně zdeformované části těla. Google uvádí, že Veo 2 tento problém redukuje „méně častým“ výskytem těchto chyb. To sice neznamená, že jsou zcela eliminovány, ale posun správným směrem je zjevný.

AI generovaný obrázek
AI generovaný obrázek

Foto: Freepik

Vylepšený Imagen 3: Kvalitnější obrázky s věrnějšími detaily

Kromě Veo 2 se Google pochlubil také vylepšením svého text-to-image modelu Imagen 3. Nejnovější verze Imagen 3 podle společnosti nabízí:

  • Jasnější a lépe komponované obrázky
  • Větší přesnost při generování různých uměleckých stylů
  • Lepší schopnost dodržování zadaných pokynů

Problém se spolehlivým dodržováním promptů byl jednou z kritických oblastí, na kterou uživatelé dříve upozorňovali. Google evidentně reaguje na zpětnou vazbu a snaží se modely ladit přesně podle potřeb uživatelů.

Dostupnost a omezení testování

Google Veo 2 aktuálně zpřístupňuje uživatelům prostřednictvím Google Labs v USA. Zatím platí určitá omezení – testování je omezeno na tvorbu videí o délce až osm sekund a v rozlišení 720p. Pro srovnání: konkurenční model Sora od OpenAI dokáže generovat až 20 sekund dlouhá videa ve vyšším rozlišení 1080p, ale za cenu $200 měsíčně v rámci předplatného ChatGPT Pro.

Pokud jde o vylepšení Imagen 3, ta jsou již nyní dostupná uživatelům Google Labs ve více než 100 zemích světa prostřednictvím nástroje ImageFX.

Shrnutí

Zatímco Google postupně vylepšuje své AI modely jako Veo 2 a Imagen 3, konkurence v oblasti generativní AI se neustále zvyšuje. Lepší fyzika, realistický pohyb a vyšší kvalita výstupů naznačují, že Google si je vědom svých slabých míst a usiluje o rychlé zlepšení. Jak obstojí Veo 2 v praxi, ukáže čas – první uživatelé v USA ale již mají šanci si novinku vyzkoušet na vlastní kůži.

Zdroj: Engadget.com (odkaz)