Hybridní AI model vytváří plynulé, vysoce kvalitní videa za sekundy
Sdílet na sociálních sítích:
Vědci z MIT vyvinuli CausVid, hybridní AI model, který generuje vysoce kvalitní videa neuvěřitelně rychle a umožňuje interaktivní tvorbu obsahu.

Jak by vypadal pohled za oponu při tvorbě videa umělou inteligencí? Možná si představujete proces podobný stop-motion animaci, kde se vytváří mnoho obrázků a spojují se dohromady, ale to není přesně případ „difúzních modelů“ jako OpenAI's SORA a Google's VEO 2.
Místo vytváření videa snímek po snímku (nebo „autoregresivně“) tyto systémy zpracovávají celou sekvenci najednou. Výsledný klip je často fotorealistický, ale proces je pomalý a nedovoluje změny za běhu.
Vědci z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) a Adobe Research nyní vyvinuli hybridní přístup zvaný „CausVid“, který vytváří videa za sekundy. Podobně jako bystrý student, který se učí od zkušeného učitele, plně sekvenční difúzní model trénuje autoregresivní systém k rychlé predikci dalšího snímku, přičemž zajišťuje vysokou kvalitu a konzistenci. Studentovi model CausVid pak dokáže generovat klipy z jednoduchého textového zadání, přeměnit fotografii na pohyblivou scénu, prodloužit video nebo měnit jeho výtvory novými vstupy během generování.
Tento dynamický nástroj umožňuje rychlou, interaktivní tvorbu obsahu, zkrácením 50krokového procesu jen na několik akcí. Dokáže vytvořit mnoho imaginativních a uměleckých scén, jako je například papírové letadlo proměňující se v labuť, srstnatí mamuti procházející sněhem, nebo dítě skákající do kaluže. Uživatelé také mohou zadat počáteční výzvu, například „vygeneruj muže přecházejícího ulici“, a poté zadat další vstupy, aby přidali do scény nové prvky, například „píše do svého sešitu, když se dostane na opačný chodník“.
Výzkumníci z CSAIL tvrdí, že model by se mohl používat pro různé úlohy úprav videa, například k tomu, aby pomohli divákům pochopit živý přenos v jiném jazyce generováním videa, které se synchronizuje s zvukovým překladem. Mohlo by to také pomoci vykreslit nový obsah ve videohře nebo rychle vytvořit tréninkové simulace k výuce robotů novým úkolům.
Tianwei Yin SM '25, PhD '25, nedávno promovaný student elektrotechniky a počítačové vědy a spolupracovník CSAIL, připisuje sílu modelu jeho smíšenému přístupu.
„CausVid kombinuje předem natrénovaný difúzní model s autoregresivní architekturou, kterou obvykle najdeme v modelech generujících text,“ říká Yin, vedoucí autor nové studie o nástroji. „Tento AI poháněný učitelský model si dokáže představit budoucí kroky k natrénování systému snímek po snímku, aby se vyhnul chybám při vykreslování.“
Yinovým spoluautorem je Qiang Zhang, vědecký pracovník v xAI a bývalý hostující výzkumník CSAIL. Na projektu pracovali s vědci z Adobe Research Richardem Zhang, Elim Shechtmanem a Xun Huang a dvěma hlavními vyšetřovateli CSAIL: profesory MIT Billem Freemanem a Frédem Durandem.
Příčina (Vid) a následek
Mnoho autoregresivních modelů dokáže vytvořit video, které je zpočátku plynulé, ale kvalita má tendenci klesat později v sekvenci. Klip běžící osoby se může zpočátku zdát realistický, ale jejich nohy se začínají pohybovat nepřirozenými směry, což naznačuje nesrovnalosti mezi snímky (také nazývané „akumulaci chyb“).
Chyby při generování videa byly běžné v předchozích kauzálních přístupech, které se samy naučily předpovídat snímky jeden po druhém. CausVid místo toho používá vysoce výkonný difúzní model k výuce jednoduššího systému jeho obecných znalostí o videu, což mu umožňuje vytvářet plynulé vizuály, ale mnohem rychleji.
CausVid prokázal své schopnosti při tvorbě videa, když výzkumníci testovali jeho schopnost vytvářet vysoce rozlišená 10sekundová videa. Překonal základní modely jako „OpenSORA“ a „MovieGen“, pracujíc až 100krát rychleji než konkurence a při tom produkoval nejstabilnější klipy s vysokou kvalitou.
Poté Yin a jeho kolegové testovali schopnost CausVid vytvářet stabilní 30sekundová videa, kde také překonal srovnatelné modely v kvalitě a konzistenci. Tyto výsledky naznačují, že CausVid bude nakonec schopen produkovat stabilní hodinová videa, nebo dokonce neomezenou délku.
Následná studie ukázala, že uživatelé upřednostňovali videa generovaná studentem modelem CausVid před jeho difúzním učitelem.
„Rychlost autoregresivního modelu opravdu dělá rozdíl,“ říká Yin. „Jeho videa vypadají stejně dobře jako videa učitele, ale s kratší dobou produkce. Kompromisem je, že jeho vizuály jsou méně rozmanité.“
CausVid také vynikal při testování na více než 900 výzvách pomocí datové sady text-to-video, přičemž dosáhl celkového skóre 84,27. Měl nejlepší metriky v kategoriích, jako je kvalita obrazu a realistické lidské akce, čímž překonal špičkové modely generování videa, jako je „Vchitect“ a „Gen-3.“
Ačkoli je CausVid efektivním krokem vpřed v generování videa pomocí AI, brzy by mohl být schopen navrhovat vizuály ještě rychleji – možná okamžitě – s menší kauzální architekturou. Yin říká, že pokud bude model trénován na doménově specifických datových sadách, pravděpodobně vytvoří klipy vyšší kvality pro robotiku a hry.
Odborníci říkají, že tento hybridní systém je slibnou vylepšením difúzních modelů, které jsou v současné době omezeny rychlostí zpracování. „[Difúzní modely] jsou mnohem pomalejší než velké jazykové modely (LLM) nebo generativní modely obrazu,“ říká asistent profesor Jun-Yan Zhu z Carnegie Mellon University, který se na studii nepodílel. „Tato nová práce to mění a generování videa se stává mnohem efektivnějším. To znamená lepší rychlost streamování, více interaktivních aplikací a nižší uhlíkovou stopu.“
Práce týmu byla částečně podpořena Amazon Science Hub, Gwangju Institute of Science and Technology, Adobe, Google, U.S. Air Force Research Laboratory a U.S. Air Force Artificial Intelligence Accelerator. CausVid bude představen na konferenci o počítačovém vidění a rozpoznávání vzorů v červnu.
Související články
Umělá inteligence ve školní lavici: Texaská škola s AI tutory
Čínský humanoidní robot Iron s orlím zrakem a výkonnou umělou inteligencí
ChatGPT zachránil život ženě s rakovinou, kterou lékaři přehlédli
Sdílet na sociálních sítích:
Komentáře