Kategorie AI videí je obrovská kategorie sama o sobě. Možná jste zaznamenali například Český mezinárodní AI filmový festival. S AI se dnes dají dělat zábavná videa jako toto s Přemyslem Oráčem od Ondřeje Svobody, které se šíří internetem. Či reklamy, které vidíte v televizi nebo reklamy, které si daná firma neobjednala jako tato Halloweenská na Nike.

https://www.youtube.com/watch?v=EzTxWRpObhQ
Způsobů, AI enginů a nástrojů na tvorbu videí je nezpočet. Pro zmíněné Nike video bylo využito dokonce 7 nástrojů a enginů:
- Midjourney
- Hailuo 2.0 (většina záběrů)
- Kling (otvírací záběr)
- Adobe Firefly
- Magnific
- Enhancor
- Elevenlabs
Dnes většinou není důležité znát konkrétní nástroj, ale vědět, že něco jde nějak udělat. Když víte, co jde dělat a co chcete udělat, tak toho dosáhnete, i když každý trochu jinak. Nástroje se dnes předbíhají v konkurenčním boji a funkcionality od sebe kopírují a rozdíly se stírají.
Navíc se nástroje mezi sebou různě propojují – v jednom video nástroji můžete využít jiný video engine, který zprostředkovává určitou funkci.
Já se v tomto článku zaměřím více na využití videa „pro práci“. Videa, kde většinou budeme potřebovat naklonovat vaši podobu a hlas nebo někoho z vašich kolegů.
Kdy taková AI videa využijeme?
Chceme vydat video, kde mluvíte, ve více jazycích
Já mám například svůj AI kurz ve více jazycích jako španělština – jazyk, kterým nemluvím. Nebo děláme pro klienty outplacement videa, která je potřeba dělat např. v 5 různých jazycích.
Chceme vydávat videa s konzistentním vzhledem – ať už vzhledem vaší osoby nebo prostředí
Chci například vydávat videa, která vypadají jako z našeho studia na Václavském náměstí, které již ale neexistuje, protože ten vzhled navazuje na předešlá videa. Nebo chcete ve videích vypadat stále stejně, i když jste teď opálení, zarostlí, nenamalovaní, oteklí nebo prostě nejste přítomni či jste umřeli (ano, AI video vás udělá v digitálním prostředí nesmrtelnými).
Chceme vytvořit video v prostředí, které by bylo drahé nebo nemožné na realizaci
Možná chcete udělat video, které vypadá jako byste stáli na Severním pólu nebo na Měsíci či Marsu.
Chcete vytvořit video, kde se nepřeřeknete, a to i ve vašem rodném jazyce
Pokud budu vytvářet videa ze skriptu, nikdy se nepřeřeknu.
Jak tedy prakticky na to?
1) Photo-to-Video a Video-to-Video Avatar
Heygen, Synthesia a např. Argil jsou nástroje, kde si můžete vytvořit vašeho dvojníka a nechat ho mluvit jakýkoliv text.
Já preferuji nástroj Heygen, který podle mě především na začátku všechny předběhl a ostatní do teď pouze dotahují.
Vytvoření avatara
Základní věc, kterou potřebujete je vytvoření vašeho vlastního avatara v podobě kopie vaší nebo např. vašeho kolegy. Využít můžete také veřejné avatary k knihovny Heygenu.

K vytvoření avataru potřebujete buď fotografii nebo lépe pro realističtější kvalitu 2-5 minutové video (min 3 sekund), kde mluvíte a to jakýmkoliv jazykem – nemá to vliv na zvolený jazyk výstupu.
Pozn: Pro dokončení avataru je nutné udělat video prohlášení, aby nebylo snadné vytvářet videa s jinými osobami bez jejich souhlasu.
Dříve bylo nutné, abyste se pro vytvoření avataru dívali přímo do kamery.

Příklad již AI generovaného videa: https://www.youtube.com/watch?v=HUqHTU1OZnA
Dnes můžete dělat avatary, kteří se do kamery nedívají, čímž vznikají další příklady použití.

Příklad již AI generovaného videa: https://www.youtube.com/watch?v=WYCyJtbYiME
Můžete udělat i tzv. pohyblivý avatar, kde pouze nestojíte, ale pohybujete se. Prostě jako předlohu pro vytvoření avataru natočte video, kde se pohybujete.

Příklad již AI generovaného videa: https://www.youtube.com/watch?v=8lZNk3yPses
Editace avatara
Novými funkcemi, díky propojení na AI video enginy jako Nano Banana, Flux LoRa můžete vaše avatary editovat jakýmkoliv promptem.
Například „Přidej mi vousy stylu Garibaldi“

Nebo „Přidej mi brýle“

Nebo „Změn scénu tak, aby to vypadalo jako podcastové studio v lese“ a zároveň přikládám referenční obrázek lesa, který si představuji.

A zde je výsledek:

Zde je vám asi jasné, že můžete vytvořit prakticky cokoliv.
Vytvoření videa z avatara
Pokud máte vytvořeného avatara, můžete již generovat videa dle libovůle. Stačí vám skript, který chcete, aby avatar říkal, a to v jakémkoliv jazyce.

Jak vidíte, v každé scéně můžete vybrat jiný vzhled avatara. Tím můžete kombinovat různé vzhledy vašeho avatara a vytvořit např. dojem toho, že bylo video natočeno na dvě kamery – jedna z dálky a druhá close-up kamera s detailem na obličej.
Jakmile jste hotoví, můžete kliknout na Generate pro vygenerování videa.
2) Interaktivní avatar
Interaktivní avatar je forma, kdy avatar reaguje interaktivně – něco jako by mělo ChatGPT ne pouze chatbot, voice mode, ale i video mode.

Aby nebyl avatar závislý pouze na obecných informací z veřejných jazykových modelů, můžete k avataru přidat i textový soubor, který bude obsahovat vaše proprietární informace – můžete si např. vytvořit avatara, který bude odpovídat zaměstnancům na interní HR otázky typu, jaká jsou pravidla pro home-office, kolik máme sick/free dayů, apod.
V souboru si můžete také vybrat styl, jakým má avatar odpovídat.
Tento avatar můžete sdílet přes webový odkaz nebo ho také můžete za sebe nechat připojit na Zoom video call. Tím vznikají hodně vtipné situace.
3) Videa v Sora 2
Sora 2 od OpenAI (společnost stojící za ChatGPT) má svůj text-to-video engine, který tvoří celou sociální síť ve stylu TikToku. Sociální sít, kde není pochyb o tom, jestli je video dělané v AI nebo ne, protože vše je v AI.
Sora můžete využít na generování jakýchkoliv videí, ale to dnes můžete i v evergreen nástrojích jako Canva nebo AI nástrojích jako Leonardo, Ideogram či dnes i Midjourney.
Sora je ale asi nejsnazší způsob, jak vygenerovat video, kde „hrajete“ vy. Na naklonování vašeho hlasu a podoby nepotřebuje 2-5 min video jako Heygen, ale dokonce asi jen asi 4 sekundy. Sora to nazývá Cameo.
A výhoda oproti jiným nástrojům, můžete do videa dokonce dostat dvě Camea – tj. dva klony reálných lidí. Svoje Cameo můžete klidně dát k dispozici ostatním, aby mohli tvořit videa s vámi.
Sora dva také často z jednoho promptu vytvoří sama video s více záběry – věc, kterou byste v jiném nástroji museli vytvořit separátně zvlášť pro každý záběr a skládat sami.

Příklady:
https://youtube.com/shorts/pF9sEeh4v_M
https://youtube.com/shorts/t2i3yZdX2a0
https://www.youtube.com/shorts/ctZgZWFtmCQ
Prompt pro vytvoření takového videa může vypadat například takto:
@josekadlec going onboard a private jet with the label RA AWARDS. And screaming to the camera “Stojí váš nábor za prd? Tak přijd na RECRUITMENT ACADEMY AWARDS”
Poznámka: V době psaní tohoto článku je Sora 2 přístupná pouze lidem v USA a to pouze na pozvání. Pro její spuštění z ČR je potřeba si změnit Apple ID na USA, použít VPN jako napr. SurfShark a být do aplikace pozvaný. Každý člověk, který se do Sora 2 dostane, dostane 6 pozvánek k rozeslání.
4) Hyperrealistická videa, aneb když chcete být skutečně ve filmu či profi reklamě
Sora 2 je takový AI video marketing pro chudé – to však neznamená, že na tom nemůžete postavit mnoho kampaní. Sám teď takto jednu budu dělat – nebude mě to stát nic za marketing, pouze mozkovou námahu na vymyšlení konceptu. A o tom to dnes je – o nápadu, spíše než o realizaci.
Nedávno se objevily hyperrealistická videa a to skrze AI video enginy jako Veo 3 od Google. Ale také např. Higgsfield, Runway Gen 3 či Kling.
Pro spuštění Veo 3 můžete použít například stránku flow.google. Zde si vytvoříte projekt a můžete rovnou generovat a také skládat vabraná vygenerovaná videa za sebe a tvořit komplexnější video.
Tady jsem tvořil video z budoucnosti, kdy české F-35 letí nad Prahou.

Abyste dostali sebe do takového videa, musíte použít jiný engine – např. NanoBanana od Google. Generování obrázků v Google Gemini (obdoba OpenAI ChatGPT) podporuje právě NanoBanana, které je ideální k editaci podoby osob (dělali jsme to již v rámci HeyGen, který NanoBanana podporuje k úpravě avatarů). NanoBanana si dále udrží dobře konzistenci podoby dané osoby i pro další obrázky.
Tady jsem se například vygeneroval jako Bollywoodský herec.

Prompty by šly zadávat i česky.
Tento obrázek poté můžete nahrát například do Veo 3 (flow.google), vybrat Ingredients to Video a vytvořit video, kde bude daná osoba účinkovat.

Příklad vygenerovaného AI videa: https://www.youtube.com/watch?v=UAHK1krUZN0
Video samozřejmě nezná můj hlas.
Způsobů jak takového výsledku docílit je mnoho a je pak na konkrétních detailech, proč použít ten či onen AI video/image engine.
5) Avatar v rozšířené realitě
Ukazovali jsme si, jak s Heygen vytvořit vaši kopii, kterou můžeme připojit např. na Zoom call. Pořád je to ale avatar poháněný znalostmi umělé inteligence.
Pokud byste chtěli avatar, kde prostě budete mít doslova masku někoho jiného, můžete použít engine Wan (aktuálně Wan 2.2) od čínských kolegů.

Video: https://www.linkedin.com/posts/josefkadlec_ai-aivideo-wan-activity-7377215579688026112-3z-C
Pokud vám stačí tzv. face swap ve videích, která nejsou živě jako video cally, tak nástrojem Higgsfield Recast se můžete dát prakticky do jakéhokoliv filmu. Prostě nelíbí se vám Titanic s Leonardem DiCapriem, ale chtěli byste ho s Bradem Pittem? Není problém. Je vám asi jasné k jaké hyperpersonalizaci obsahu tohle vede. Dovedu si představit, že budete dělat podcast a lidi v Indii vás uvidí jinak než lidi v USA nebo v Číně.
Využití AI podob v profesním životě má podob ještě více jako např. dnes není problém vytvořit podcast i s videem (způsobů je opět více).
Tak kdo ještě potřebujete kameru nebo kameramana?

