Apple uvádza na trh model umelej inteligencie, ktorý dokáže upravovať fotografie na základe textových príkazov

Posted On: 8 februára, 2024
Posted By: Elliot Menzie
Comments: 0

Apple dnes nepatrí medzi špičkových hráčov v hre AI, ale nový model AI s otvoreným zdrojovým kódom na úpravu fotografií ukazuje, čím môže prispieť k tejto oblasti. Model sa nazýva MLLM Guided Image Editing (MGIE), ktorý využíva multimodálne veľké jazykové modely (MLLM) na interpretáciu textových príkazov pri spracovaní obrázkov. Inými slovami, nástroj má schopnosť upravovať obrázky na základe textu, ktorý používateľ napíše. Hoci to nie je prvý nástroj, ktorý to dokáže, „ľudské pokyny sú niekedy príliš stručné na to, aby ich existujúce metódy dokázali zachytiť a nasledovať“. Projektový list (PDF) Prečítajte si.

Spoločnosť vyvinula MGIE s výskumníkmi z Kalifornskej univerzity v Santa Barbare. MLLM majú schopnosť premeniť jednoduché alebo nejednoznačné textové výzvy na podrobnejšie a jasnejšie pokyny, ktoré môže nasledovať aj samotný editor obrázkov. Ak by napríklad používateľ chcel upraviť obrázok feferónovej pizze, aby bola „zdravšia“, MLLM by to mohli interpretovať ako „pridať zeleninové polevy“ a upraviť obrázok ako taký.

Obrázky pizze, gepardov, počítačov a ľudí. — jablko

Okrem vykonávania významných zmien na obrázkoch dokáže MGIE obrázky aj orezávať, meniť ich veľkosť a otáčať, ako aj zlepšovať jas, kontrast a vyváženie farieb, a to všetko prostredníctvom textových výziev. Môže tiež upravovať konkrétne oblasti obrazu a môže napríklad upravovať vlasy, oči a oblečenie osoby na ňom alebo odstraňovať objekty v pozadí.

Páči sa mi to venturebeat Poznámky, Apple vydal model prostredníctvom githubale záujemcovia si môžu vyskúšať aj a experimentálne Ktorá je momentálne hosťovaná na Hugging Face Spaces. Apple sa zatiaľ nevyjadril, či plánuje využiť to, čo sa naučil z tohto projektu, v nástroji alebo funkcii, ktorú by mohol integrovať do niektorého zo svojich produktov.