Jak dělat profi videa bez kameramana pomocí AI (i po tom, co umřete)

V minulém díle jsme si ukázali, jak nahradit fotografa a vůbec proces focení. Dnes již uzrál čas i na to, že můžeme vytvářet videa s vaší osobou, aniž byste museli ve videu sami účinkovat. Já tuto technologii využívám dnes již přes rok a půl určitě – v současnosti jsou ale nejen výsledky ještě kvalitnější, ale umožňují nám zároveň věci, které před pár měsíci či lety vůbec nešly.

Josef Kadlec

Kategorie AI videí je obrovská kategorie sama o sobě. Možná jste zaznamenali například Český mezinárodní AI filmový festival. S AI se dnes dají dělat zábavná videa jako toto s Přemyslem Oráčem od Ondřeje Svobody, které se šíří internetem. Či reklamy, které vidíte v televizi nebo reklamy, které si daná firma neobjednala jako tato Halloweenská na Nike.

null
https://www.youtube.com/watch?v=EzTxWRpObhQ

Způsobů, AI enginů a nástrojů na tvorbu videí je nezpočet. Pro zmíněné Nike video bylo využito dokonce 7 nástrojů a enginů:

  • Midjourney
  • Hailuo 2.0 (většina záběrů)
  • Kling (otvírací záběr)
  • Adobe Firefly
  • Magnific
  • Enhancor
  • Elevenlabs

Dnes většinou není důležité znát konkrétní nástroj, ale vědět, že něco jde nějak udělat. Když víte, co jde dělat a co chcete udělat, tak toho dosáhnete, i když každý trochu jinak. Nástroje se dnes předbíhají v konkurenčním boji a funkcionality od sebe kopírují a rozdíly se stírají.

Navíc se nástroje mezi sebou různě propojují – v jednom video nástroji můžete využít jiný video engine, který zprostředkovává určitou funkci.

Já se v tomto článku zaměřím více na využití videa „pro práci“. Videa, kde většinou budeme potřebovat naklonovat vaši podobu a hlas nebo někoho z vašich kolegů.

Kdy taková AI videa využijeme?

Chceme vydat video, kde mluvíte, ve více jazycích

Já mám například svůj AI kurz ve více jazycích jako španělština – jazyk, kterým nemluvím. Nebo děláme pro klienty outplacement videa, která je potřeba dělat např. v 5 různých jazycích.

Chceme vydávat videa s konzistentním vzhledem – ať už vzhledem vaší osoby nebo prostředí

Chci například vydávat videa, která vypadají jako z našeho studia na Václavském náměstí, které již ale neexistuje, protože ten vzhled navazuje na předešlá videa. Nebo chcete ve videích vypadat stále stejně, i když jste teď opálení, zarostlí, nenamalovaní, oteklí nebo prostě nejste přítomni či jste umřeli (ano, AI video vás udělá v digitálním prostředí nesmrtelnými).

Chceme vytvořit video v prostředí, které by bylo drahé nebo nemožné na realizaci

Možná chcete udělat video, které vypadá jako byste stáli na Severním pólu nebo na Měsíci či Marsu.

Chcete vytvořit video, kde se nepřeřeknete, a to i ve vašem rodném jazyce

Pokud budu vytvářet videa ze skriptu, nikdy se nepřeřeknu.

Jak tedy prakticky na to?

1) Photo-to-Video a Video-to-Video Avatar

Heygen, Synthesia a např. Argil jsou nástroje, kde si můžete vytvořit vašeho dvojníka a nechat ho mluvit jakýkoliv text.

Já preferuji nástroj Heygen, který podle mě především na začátku všechny předběhl a ostatní do teď pouze dotahují.

Vytvoření avatara

Základní věc, kterou potřebujete je vytvoření vašeho vlastního avatara v podobě kopie vaší nebo např. vašeho kolegy. Využít můžete také veřejné avatary k knihovny Heygenu.

null

K vytvoření avataru potřebujete buď fotografii nebo lépe pro realističtější kvalitu 2-5 minutové video (min 3 sekund), kde mluvíte a to jakýmkoliv jazykem – nemá to vliv na zvolený jazyk výstupu.

Pozn: Pro dokončení avataru je nutné udělat video prohlášení, aby nebylo snadné vytvářet videa s jinými osobami bez jejich souhlasu.

Dříve bylo nutné, abyste se pro vytvoření avataru dívali přímo do kamery.

null

Příklad již AI generovaného videa: https://www.youtube.com/watch?v=HUqHTU1OZnA

Dnes můžete dělat avatary, kteří se do kamery nedívají, čímž vznikají další příklady použití.

null

Příklad již AI generovaného videa: https://www.youtube.com/watch?v=WYCyJtbYiME

Můžete udělat i tzv. pohyblivý avatar, kde pouze nestojíte, ale pohybujete se. Prostě jako předlohu pro vytvoření avataru natočte video, kde se pohybujete.

null

Příklad již AI generovaného videa: https://www.youtube.com/watch?v=8lZNk3yPses

Editace avatara

Novými funkcemi, díky propojení na AI video enginy jako Nano Banana, Flux LoRa můžete vaše avatary editovat jakýmkoliv promptem.

Například „Přidej mi vousy stylu Garibaldi“

null

Nebo „Přidej mi brýle“

null

Nebo „Změn scénu tak, aby to vypadalo jako podcastové studio v lese“ a zároveň přikládám referenční obrázek lesa, který si představuji.

null

A zde je výsledek:

null

Zde je vám asi jasné, že můžete vytvořit prakticky cokoliv.

Vytvoření videa z avatara

Pokud máte vytvořeného avatara, můžete již generovat videa dle libovůle. Stačí vám skript, který chcete, aby avatar říkal, a to v jakémkoliv jazyce.

null

Jak vidíte, v každé scéně můžete vybrat jiný vzhled avatara. Tím můžete kombinovat různé vzhledy vašeho avatara a vytvořit např. dojem toho, že bylo video natočeno na dvě kamery – jedna z dálky a druhá close-up kamera s detailem na obličej.

Jakmile jste hotoví, můžete kliknout na Generate pro vygenerování videa.

2) Interaktivní avatar

Interaktivní avatar je forma, kdy avatar reaguje interaktivně – něco jako by mělo ChatGPT ne pouze chatbot, voice mode, ale i video mode.

null

Aby nebyl avatar závislý pouze na obecných informací z veřejných jazykových modelů, můžete k avataru přidat i textový soubor, který bude obsahovat vaše proprietární informace – můžete si např. vytvořit avatara, který bude odpovídat zaměstnancům na interní HR otázky typu, jaká jsou pravidla pro home-office, kolik máme sick/free dayů, apod.

V souboru si můžete také vybrat styl, jakým má avatar odpovídat.

Tento avatar můžete sdílet přes webový odkaz nebo ho také můžete za sebe nechat připojit na Zoom video call. Tím vznikají hodně vtipné situace.

3) Videa v Sora 2

Sora 2 od OpenAI (společnost stojící za ChatGPT) má svůj text-to-video engine, který tvoří celou sociální síť ve stylu TikToku. Sociální sít, kde není pochyb o tom, jestli je video dělané v AI nebo ne, protože vše je v AI.

Sora můžete využít na generování jakýchkoliv videí, ale to dnes můžete i v evergreen nástrojích jako Canva nebo AI nástrojích jako Leonardo, Ideogram či dnes i Midjourney.

Sora je ale asi nejsnazší způsob, jak vygenerovat video, kde „hrajete“ vy. Na naklonování vašeho hlasu a podoby nepotřebuje 2-5 min video jako Heygen, ale dokonce asi jen asi 4 sekundy. Sora to nazývá Cameo.

A výhoda oproti jiným nástrojům, můžete do videa dokonce dostat dvě Camea – tj. dva klony reálných lidí. Svoje Cameo můžete klidně dát k dispozici ostatním, aby mohli tvořit videa s vámi.

Sora dva také často z jednoho promptu vytvoří sama video s více záběry – věc, kterou byste v jiném nástroji museli vytvořit separátně zvlášť pro každý záběr a skládat sami.

null

Příklady:
https://youtube.com/shorts/pF9sEeh4v_M
https://youtube.com/shorts/t2i3yZdX2a0
https://www.youtube.com/shorts/ctZgZWFtmCQ

Prompt pro vytvoření takového videa může vypadat například takto:

@josekadlec going onboard a private jet with the label RA AWARDS. And screaming to the camera “Stojí váš nábor za prd? Tak přijd na RECRUITMENT ACADEMY AWARDS”

Poznámka: V době psaní tohoto článku je Sora 2 přístupná pouze lidem v USA a to pouze na pozvání. Pro její spuštění z ČR je potřeba si změnit Apple ID na USA, použít VPN jako napr. SurfShark a být do aplikace pozvaný. Každý člověk, který se do Sora 2 dostane, dostane 6 pozvánek k rozeslání.

4) Hyperrealistická videa, aneb když chcete být skutečně ve filmu či profi reklamě

Sora 2 je takový AI video marketing pro chudé – to však neznamená, že na tom nemůžete postavit mnoho kampaní. Sám teď takto jednu budu dělat – nebude mě to stát nic za marketing, pouze mozkovou námahu na vymyšlení konceptu. A o tom to dnes je – o nápadu, spíše než o realizaci.

Nedávno se objevily hyperrealistická videa a to skrze AI video enginy jako Veo 3 od Google. Ale také např. Higgsfield, Runway Gen 3 či Kling.

Pro spuštění Veo 3 můžete použít například stránku flow.google. Zde si vytvoříte projekt a můžete rovnou generovat a také skládat vabraná vygenerovaná videa za sebe a tvořit komplexnější video.

Tady jsem tvořil video z budoucnosti, kdy české F-35 letí nad Prahou.

null

Abyste dostali sebe do takového videa, musíte použít jiný engine – např. NanoBanana od Google. Generování obrázků v Google Gemini (obdoba OpenAI ChatGPT) podporuje právě NanoBanana, které je ideální k editaci podoby osob (dělali jsme to již v rámci HeyGen, který NanoBanana podporuje k úpravě avatarů). NanoBanana si dále udrží dobře konzistenci podoby dané osoby i pro další obrázky.

Tady jsem se například vygeneroval jako Bollywoodský herec.

null

Prompty by šly zadávat i česky.

Tento obrázek poté můžete nahrát například do Veo 3 (flow.google), vybrat Ingredients to Video a vytvořit video, kde bude daná osoba účinkovat.

null

Příklad vygenerovaného AI videa: https://www.youtube.com/watch?v=UAHK1krUZN0

Video samozřejmě nezná můj hlas.

Způsobů jak takového výsledku docílit je mnoho a je pak na konkrétních detailech, proč použít ten či onen AI video/image engine.

5) Avatar v rozšířené realitě

Ukazovali jsme si, jak s Heygen vytvořit vaši kopii, kterou můžeme připojit např. na Zoom call. Pořád je to ale avatar poháněný znalostmi umělé inteligence.

Pokud byste chtěli avatar, kde prostě budete mít doslova masku někoho jiného, můžete použít engine Wan (aktuálně Wan 2.2) od čínských kolegů.

null
Video: https://www.linkedin.com/posts/josefkadlec_ai-aivideo-wan-activity-7377215579688026112-3z-C

null
Video: https://www.linkedin.com/posts/josefkadlec_ai-aiinterviews-artificialintelligence-activity-7378881830575570944-7dXw/

Pokud vám stačí tzv. face swap ve videích, která nejsou živě jako video cally, tak nástrojem Higgsfield Recast se můžete dát prakticky do jakéhokoliv filmu. Prostě nelíbí se vám Titanic s Leonardem DiCapriem, ale chtěli byste ho s Bradem Pittem? Není problém. Je vám asi jasné k jaké hyperpersonalizaci obsahu tohle vede. Dovedu si představit, že budete dělat podcast a lidi v Indii vás uvidí jinak než lidi v USA nebo v Číně. 

null
Video: https://www.linkedin.com/posts/josefkadlec_aivideo-ai-artificialintelligence-activity-7395229118117597184-nFZj/

Využití AI podob v profesním životě má podob ještě více jako např. dnes není problém vytvořit podcast i s videem (způsobů je opět více).

Tak kdo ještě potřebujete kameru nebo kameramana?