Wednesday, May 28, 2025
spot_img

Google Veo 3: Nová generace AI pro video

Na konferenci Google I/O 2025 byl představen Veo 3, třetí generace generativního video modelu od Google DeepMind. Tento model přímo soupeří s OpenAI Sora. Na rozdíl od předchozích systémů Veo 3 umí vytvářet videoklipy se synchronizovanou zvukovou stopou – například dialogy postav, hudbu či ruchy prostředí. Model funguje na základě textových i obrazových promptů a podle oficiálních informací dokáže „převést krátký příběh z vašeho popisu do života” ve formě video klipu. Veo 3 je dostupný v USA v rámci Google AI Ultra plánu (aplikace Gemini, nástroj Flow) a pro firmy přes Google Cloud (Vertex AI).

Klíčové schopnosti a vylepšení

Veo 3 přináší několik zásadních vylepšení oproti předchozí verzi i konkurenčním nástrojům:

  • Natívní zvuk. Na rozdíl od většiny dřívějších AI video modelů generuje Veo 3 video i se zvukovou stopou – obsahuje mluvu postav, hudbu a ambientní zvuky. Google demonstroval animované video se zvířaty, kde dialogy byly s obrazem dokonale synchronizované.

  • Vyšší realismus. Model „doručuje nejlepší kvalitu ve své třídě”, vylepšuje fyzikální věrnost scén i animaci mimiky. Dokáže generovat věrné chování objektů a realistickou dynamiku, včetně dodržení reálných fyzikálních zákonů na scéně. Ve srovnání se Sora navíc Veo 3 umí vytvářet vysoce kvalitní 4K video, zatímco Sora byla dosud limitována na 1080p.

  • Lepší porozumění promptům. Další generace modelu je snadněji ovladatelná – lépe odpovídá na složitější, dlouhé popisy scény, rozumí posloupnosti událostí a udrží konzistentní příběh.

  • Nové filmové nástroje. Do Veo 3 (a doplňků Veo 2) byly přidány schopnosti jako reference video nebo obrázek pro kontrolu postav, kamerové pohyby (otáčení, zoomy), „outpainting” pro rozšíření záběru, či přidávání/odebírání objektů – vše pro lepší kreativní kontrolu video produkce.

  • Rozlišení a délka. Podpora 4K zajišťuje vysokou detailnost obrazu. Zatímco veřejně dostupné ukázky Veo 3 jsou krátké (řádově několik sekund), předchůdce Veo 2 dokázal generovat i delší sekvence nad dvě minuty. Očekává se, že Veo 3 bude schopný tvořit postupně delší animace, než umožňují dosavadní demo verze.

Podle mediálních zpráv jsou audio a realismus klíčovými rozdíly oproti konkurenci. Například TechRadar uvádí, že doposud žádný jiný model neumožňoval generovat synchronní audio, a TechCrunch zdůrazňuje, že Veo 3 „poprvé ukončuje éru tichých videí”.

Technologické pozadí

Veo 3 je state-of-the-art generativní model pro video, vyvinutý v laboratořích Google DeepMind. Google oficiálně nesdílí detailní architekturu, ale stejně jako další špičkové video AI systémy pravděpodobně stojí na rozsáhlé síti neuronů trénované na obrovském korpusu videí (mimo jiné využívající bohatou knihovnu videí platformy YouTube, kterou Google vlastní). Z volně dostupných informací víme, že modely Veo byly trénovány na milionech videí s podrobnými popisy, aby se naučily spojovat textové instrukce s odpovídajícím video a audio obsahem.

Vstupy do Veo 3 mohou být textové popisy i obrázky. Uživatelé tedy mohou začít například popisem scény („dva klauni na poušti s barevnými balóny”) nebo referenčními obrázky či krátkými klipy pro určení stylu či postav. Model pak vygeneruje video vycházející z těchto promptů. Podle Google model „exceluje v promptování z textu i z obrazových podnětů”.

V praxi je Veo 3 integrován do Google ekosystému: pro koncové uživatele je dostupný v mobilní/desktopové aplikaci Gemini (v Google AI Ultra plánu za 249.99 USD měsíčně, nyní v akci na první tři měsíce za 129.99 USD) a v nástroji Flow pro tvorbu filmových sekvencí. Firmy mohou Veo 3 využívat skrze Vertex AI na Google Cloud (momentálně formou privátního testování).

Náš komentář

Přes velkolepost, jak by se mohlo z oznámení zdát, tak Veo 3 postrádá jednu zásadní funkci a to Image to Video. Díky tomu Veo 3 není příliš použitelné v běžné kreativní práci. Kvalita generovaného videa je srovnatelná s Veo 2. Největší skok je právě v přidání generovaných videa s konverzačním zvukem. Největší radost z této technologie můžou mít právě lidé, kteří se živí dělání fake news či alternativními médii. Nyní bude velmi těžké rozeznat jestli se půjde o dezinformace či nikoliv, a v případě lidi v důchodovém věku to platí dvojnásob.

Výhodou je nová aplikace pro tvorbu Flow, která však není zatím dostupná v evropě. Také cena předplatného indikuje, že jedno video bude velmi drahé, můj odhad je kolem 5-10 USD, což je poměrně obrovský rozdíl oproti čínským video modelům, které stojí často kolem 0,2 USD za video.

Generované výstupy a ukázky

Google Veo 3 dokáže tvořit mimořádně realistická videa. Model generuje scény s detailním pozadím i složitou animací postav – např. staticky působící filmový snímek starého námořníka vyprávějícího příběh na palubě lodi. Přitom k obrazu automaticky doplní odpovídající zvuky (kůře plachetnice, praskání dřeva, šumění moře, ale i hlasy postav). Na konferenci Google I/O bylo předvedeno demonstrační video CGI zvířecí konverzace v lese, kde dialogy obou postav i ruchy lesa zněly v dokonalé synchronizaci. To naznačuje, že Veo 3 zvládá pokročilou koordinaci obrazu a zvuku.

V současnosti jsou veřejně ukázaná videa poměrně krátká (desetisekundy), čemuž odpovídá i většina testů. Předchozí Veo 2 už ale uměl videa delší než dvě minuty, a Veo 3 je navržen pro výrazně delší projekty. Díky lepšímu porozumění složitým příběhům dokáže model postupně zpracovat i více dílů děje v promptu. Odborníci tedy očekávají, že se Veo 3 postupně bude upgradovat i na delší formáty (možná až celovečerní animace) při zachování kvality obrazu a zcela synchronizovaného audia.

Možnosti využití

Veo 3 otevírá řadu zajímavých scénářů použití v médiích a kreativitě. Například:

  • Reklama a marketing: Firmy mohou generovat poutavá reklamní videa během okamžiku. Technologie pro Google Cloud již používají velké značky. Například Klarna (finanční služba) využívá Veo pro tvorbu b‑roll záběrů a YouTube videí se výrazným zkrácením produkční doby. Díky Veo mohou marketéři rychle vytvářet atraktivní obsah bez drahé kamerové produkce.

  • Film a animace: Nástroj Flow (postavený na Veo 3) umožňuje filmařům rychle prototypovat scény – spojovat několik krátkých klipů do příběhu pomocí textových i obrazových promptů. Google o Veo 3 uvádí, že tvůrci mohou “přeměnit dříve časově náročné procesy ve zrychlené úkony”, a režiséři tak mohou bez prodlev vizualizovat své nápady a storyboardy.

  • E‑learning a prezentace: Veo lze využít pro výuku – generovat ilustrační animace a vizualizace. Například matematici či vědci mohou pomocí krátkých popisů vytvořit animační modely experimentů nebo historických scén, které by jinak vyžadovaly mnoho práce.

  • Kreativní obsah a media: Platformy pro digitální kreativitu integrují Veo do svých nástrojů. Servis Envato nedávno spustil funkci „VideoGen”, kde předplatitelé ze vstupního textu či obrázků vygenerují hyper-realistické video. V budoucnu tak mohou bloggeři, herní tvůrci nebo tvůrci webových seriálů využít Veo pro rychlé doplnění svého obsahu o profesionálně vypadající videoklipy.

  • Fakenews a dezinformace: Největší použití však bude mít Veo 3 ve fakenews a dezinformací, protože dokáže velmi reálně nasimulovat třeba hlasatele televizních novin a bude pak velmi těžko odlišit co je a co není reálná zpráva.

Přístupnost a dostupnost

Veo 3 je nyní běžně dostupný pouze v USA. Jednotliví uživatelé jej získají předplatným Google AI Ultra (cena 249,99 USD/měsíc). Ultra plán zahrnuje aplikaci Gemini s podporou generování videa a nejvyšší měsíční limity. Google nabízí novým uživatelům slevu na první tři měsíc. V ČR a dalších zemích však Veo 3 zatím dostupný není .

Firemní zákazníci mohou využívat Veo 3 přes platformu Google Cloud (Vertex AI) – momentálně ve formě uzavřené testovací verze, kam se lze přihlásit přes přístupový formulář. Nově představený nástroj Flow pro filmovou tvorbu je dostupný předplatitelům Google AI Pro (100 generací/měsíc) a Ultra v USA. Plán Google je brzy rozšířit dostupnost modelu Veo 3 i do dalších regionů a nástroj Flow zpřístupnit dalším jazykům.

Ohlasy odborníků

Odborná veřejnost vnímá Veo 3 jako významný pokrok v oblasti generování videa. Šéf DeepMindu Demis Hassabis na tiskové konferenci prohlásil, že „vynořujeme se z éry tichých videí”. Journalista TechRadar Lance Ulanoff píše, že schopnost modelu zcela synchronizovat obraz se zvukem (zahrnující i dialogy) může být doslova „game changer” pro AI tvorbu videa. Google také zdůrazňuje lepší ovládání promptů – kreativní ředitel DeepMindu Matthieu Lorrain uvedl, že Veo 3 nabízí „lepší kvalitu, snadnější promptování a generování videa se zvukem” a lépe zvládá delší instrukce.

První recenze a testy potvrzují vysokou realističnost výstupu i kvalitu zvuku. Technologičtí novináři oceňují detailnost generovaných klipů a čistou synchronizaci audio stop, i když prozatím upozorňují na omezenou dostupnost (model je pro širší veřejnost stále zčásti uzavřený). Odborníci tedy považují Veo 3 za krok směrem k plné automatizaci produkce animovaného videa, který může otevřít nové možnosti ve filmech, reklamě i tvorbě vzdělávacích multimédií.

Latest Posts