Učíme AI modely skicovat jako lidé
Sdílet na sociálních sítích:
Výzkumníci z MIT vyvinuli SketchAgent, systém, který umožňuje AI skicovat koncepty krok za krokem, podobně jako lidé.

Při snaze komunikovat nebo chápat myšlenky nestačí vždy jen slova. Někdy je efektivnější jednoduše daný koncept načrtnout – například schéma obvodu může pomoci pochopit, jak systém funguje.
Ale co kdyby nám s těmito vizualizacemi mohla pomoci umělá inteligence? Zatímco tyto systémy obvykle excelují ve vytváření realistických obrazů a kreslených obrázků, mnoha modelům chybí podstata skicování: jeho krok za krokem, iterativní proces, který pomáhá lidem vymýšlet nápady a upravovat, jak chtějí své myšlenky prezentovat.
Nový kreslicí systém z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) a Stanfordské univerzity dokáže skicovat podobně jako my. Jejich metoda, nazvaná „SketchAgent“, využívá multimodální jazykový model – AI systém, který se učí z textu a obrázků, jako například Anthropic’s Claude 3.5 Sonnet – k přeměně dotazů v přirozeném jazyce na skici během několika sekund. Například dokáže nakreslit dům buď samostatně, nebo ve spolupráci s člověkem, kreslit s člověkem nebo začlenit textový vstup k načrtnutí každé části zvlášť.
Výzkumníci ukázali, že SketchAgent dokáže vytvářet abstraktní kresby různých konceptů, jako je robot, motýl, DNA helix, vývojový diagram a dokonce i Operní dům v Sydney. Jednoho dne by se nástroj mohl rozšířit na interaktivní uměleckou hru, která pomáhá učitelům a vědcům znázorňovat komplexní pojmy nebo poskytovat uživatelům rychlé kreslicí lekce.
Yael Vinker, postdoktorandka CSAIL a hlavní autorka článku představujícího SketchAgent, poznamenává, že systém zavádí přirozenější způsob, jak lidé komunikují s AI.
„Ne každý si uvědomuje, kolik kreslí ve svém každodenním životě. Můžeme si kreslit své myšlenky nebo si s nápady pohrávat pomocí skic,“ říká. „Náš nástroj si klade za cíl tento proces napodobit a učinit multimodální jazykové modely užitečnějšími při vizuálním vyjadřování myšlenek.“
SketchAgent učí tyto modely kreslit krok za krokem bez použití jakýchkoli dat – výzkumníci místo toho vyvinuli „kreslicí jazyk“, ve kterém je skica přeložena do očíslované sekvence tahů na mřížce. Systém obdržel příklad toho, jak se kreslí věci jako dům, přičemž každý tah byl označen podle toho, co zastupoval – například sedmý tah byl obdélník označený jako „vchodní dveře“ – aby pomohl modelu zobecnit nové koncepty.
Vinker napsala článek spolu se třemi spolupracovníky CSAIL – postdoktorandkou Tamar Rott Shaham, vysokoškolským výzkumníkem Alexem Zhaem a profesorem MIT Antoniem Torralbou – stejně jako výzkumnou pracovnicí Stanfordské univerzity Kristine Zheng a profesorkou Judith Ellen Fan. Své dílo představí na konferenci Computer Vision and Pattern Recognition (CVPR) 2025 v tomto měsíci.
Zatímco textové modely obrázků, jako je DALL-E 3, dokáží vytvářet zajímavé kresby, chybí jim klíčová součást skicování: spontánní, kreativní proces, kde každý tah může ovlivnit celkový design. Na druhou stranu, kresby SketchAgentu jsou modelovány jako posloupnost tahů, které působí přirozeněji a plynuleji, jako lidské skici.
Předchozí práce tento proces také napodobovaly, ale trénovaly své modely na lidských datových sadách, které jsou často omezené svou velikostí a rozmanitostí. SketchAgent místo toho používá předem vycvičené jazykové modely, které znají mnoho konceptů, ale nevědí, jak skicovat. Když výzkumníci jazykové modely tomuto procesu naučili, SketchAgent začal skicovat rozmanité koncepty, na kterých nebyl výslovně trénován.
Přesto Vinker a její kolegové chtěli zjistit, zda SketchAgent aktivně spolupracuje s lidmi na procesu skicování, nebo zda pracuje nezávisle na svém kreslícím partnerovi. Tým testoval svůj systém v režimu spolupráce, kde člověk a jazykový model pracují společně na nakreslení konkrétního konceptu. Odstranění příspěvků SketchAgentu odhalilo, že tahy nástroje byly pro konečnou kresbu nezbytné. Například v kresbě plachetnice učinilo odstranění umělých tahů představujících stožár celkovou skicu nerozpoznatelnou.
V dalším experimentu zapojili výzkumníci z CSAIL a Stanfordu do SketchAgentu různé multimodální jazykové modely, aby zjistili, který dokáže vytvářet nejrozpoznatelnější skici. Jejich výchozí model, Claude 3.5 Sonnet, generoval nejlidštější vektorovou grafiku (v podstatě textové soubory, které lze převést na obrázky ve vysokém rozlišení). Předčil modely jako GPT-4o a Claude 3 Opus.
„Skutečnost, že Claude 3.5 Sonnet předčil jiné modely, jako je GPT-4o a Claude 3 Opus, naznačuje, že tento model zpracovává a generuje vizuální informace odlišně,“ říká spoluautorka Tamar Rott Shaham.
Dodává, že SketchAgent by se mohl stát užitečným rozhraním pro spolupráci s AI modely nad rámec standardní textové komunikace. „Jak modely postupují v chápání a generování dalších modalit, jako jsou skici, otevírají se nové způsoby, jak uživatelé mohou vyjadřovat své myšlenky a dostávat odpovědi, které působí intuitivněji a lidsky,“ říká Shaham. „To by mohlo výrazně obohatit interakce a učinit AI přístupnější a všestrannější.“
Ačkoli je kreslicí umění SketchAgentu slibné, ještě nedokáže vytvářet profesionální skici. Vytváří jednoduchá znázornění konceptů pomocí tyčinek a čar, ale má potíže s kresbou věcí jako loga, věty, komplexní stvoření, jako jsou jednorožci a krávy, a specifické lidské postavy.
Někdy také model špatně pochopil záměry uživatelů v kolaborativních kresbách, například když SketchAgent nakreslil králíka se dvěma hlavami. Podle Vinker to může být proto, že model rozkládá každou úlohu na menší kroky (také nazývané „Chain of Thought“ uvažování). Při práci s lidmi model vytvoří plán kreslení, přičemž potenciálně nesprávně interpretuje, ke které části tohoto náčrtu člověk přispívá. Výzkumníci by tyto kreslicí dovednosti mohli vylepšit tréninkem na syntetických datech z difúzních modelů.
Kromě toho SketchAgent často vyžaduje několik kol výzev k vygenerování lidských čar. Do budoucna si tým klade za cíl usnadnit interakci a skicování s multimodálními jazykovými modely, včetně vylepšení jejich rozhraní.
Přesto nástroj naznačuje, že AI by mohla kreslit rozmanité koncepty tak, jak to dělají lidé, s krok za krokem lidsko-AI spoluprací, která vede k více sladěným konečným návrhům.
Tato práce byla částečně podpořena Národním vědeckým fondem USA, grantem Hoffman-Yee od Stanfordského institutu pro humánně orientovanou AI, společností Hyundai Motor Co., Armádní výzkumnou laboratoří USA, programem Zuckerman STEM Leadership a stipendiem Viterbi.
Související články
Generativní AI pomáhá robotům skákat výše a bezpečněji přistávat
Noví roboti Hugging Face zpřístupňují AI každému doma
Badatelé MIT představují odvážné myšlenky v oblasti generativní AI
Sdílet na sociálních sítích:
Komentáře