Google Lumiere robí AI video bližšie k realite ako k nerealite

Nový model AI od Googlu na generovanie videa Lumiere Používa sa A Nový model difúzie sa nazýva Space-Time-U-Net alebo STUNet, ktorý určuje, kde sú objekty vo videu (priestor) a ako sa pohybujú a menia súčasne (čas). Ars Technica Táto metóda umožňuje Lumiere vytvoriť video v jedinom procese namiesto spájania menších statických snímok, poznamenáva táto metóda.

Lumiere začína vytvorením základného rámu z vektora. Potom použije rámec STUNet na začatie aproximácie toho, kde sa budú objekty pohybovať v rámci tohto rámca, aby sa vytvorilo viac rámov, ktoré sa navzájom prelínajú a vytvárajú zdanie plynulého pohybu. Lumiere tiež vytvára 80 snímok v porovnaní s 25 snímkami zo Stable Video Diffusion.

Priznávam, že som skôr textový reportér ako osoba s videom, ale tlačová správa spoločnosti Google spolu s predtlačeným vedeckým dokumentom ukazuje, že nástroje na tvorbu a úpravu videa pomocou umelej inteligencie sa v priebehu niekoľkých rokov zmenili zo záhadného údolia na takmer skutočné. . Tiež zavádza technológiu Google v priestore, ktorý už obsadili konkurenti ako Runway, Stable Video Diffusion alebo Meta's Emu. Runway, jedna z prvých masovo vyrábaných platforiem pre prevod textu na video, spustila Runway Gen-2 v marci minulého roka a začala ponúkať realistickejšie videá. Videá na dráhe majú tiež problémy so zachytením akcie.

Google bol taký láskavý, že umiestnil klipy a výzvy na stránku Lumiere, čo mi umožnilo umiestniť rovnaké výzvy na porovnanie na Runway. Tu sú výsledky:

Áno, niektoré z prezentovaných klipov majú industriálny nádych, najmä ak sa pozorne pozriete na textúru pokožky alebo ak je scéna atmosférickejšia. ale Pozrite sa na tú korytnačku! Pohybuje sa ako korytnačka vo vode! Vyzerá ako skutočná korytnačka! Úvodné video Lumiere som poslal priateľovi, ktorý je profesionálnym editorom videa. Aj keď poznamenala, že „môžete jasne povedať, že to nie je celkom skutočné“, považovala za pôsobivé, že keby som jej nepovedal, že je to AI, myslela by si, že je to CGI. (Ona tiež povedala: „To by mi vzalo prácu, nie?“)

READ  Meta: Vlastník Facebooku spúšťa predplatiteľskú službu virtuálnej reality

Iné modely spájajú videoklipy z kľúčových snímok vytvorených tam, kde sa akcia skutočne odohrala (napríklad kresby v papierovej knihe), zatiaľ čo STUNet umožňuje Lumiere zamerať sa na samotnú akciu na základe toho, kde by sa mal vygenerovaný obsah nachádzať v čase špecifickom z videa.

Google nebol veľkým hráčom v kategórii text-to-video, ale pomaly vydal pokročilejšie modely AI a posunul sa smerom k multimediálnemu zameraniu. Jeho veľký jazykový model Gemini nakoniec prinesie bardovi generovanie obrazu. Lumiere ešte nie je k dispozícii na testovanie, ale ukazuje schopnosť spoločnosti Google vyvinúť video platformu AI, ktorá je porovnateľná – a pravdepodobne o niečo lepšia – ako bežne dostupné generátory videa AI, ako sú Runway a Pika. A len pre záznam, tu bol Google s videom AI pred pár rokmi.

Klip Google Imagen z roku 2022
Obrázok: Google

Okrem vytvárania konverzie textu na video Lumiere umožní aj vytváranie konverzie obrazu na video, štylizovanú tvorbu, ktorá používateľom umožňuje vytvárať videá v špecifickom štýle, filmovú grafiku, ktorá animuje iba časť videa, a kreslenie do maskovaním oblasti videa zmeníte farbu alebo vzor.

Štúdia Google Lumiere však poznamenala, že „existuje riziko zneužitia na vytvorenie falošného alebo škodlivého obsahu pomocou našej technológie a veríme, že je nevyhnutné vyvinúť a implementovať nástroje na odhaľovanie predsudkov a prípadov škodlivého použitia, aby sme zaistili bezpečný a spravodlivý zážitok. .“ Autori príspevku nevysvetlili, ako by sa to dalo dosiahnuť.

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *