Představte si, že požádáte robota, aby uklidil kuchyni, aniž by rozuměl fyzikálním zákonům svého okolí. Jak může stroj vytvořit praktický plán v několika krocích, aby zajistil, že místnost bude bezchybně čistá? Velké jazykové modely (LLM) se k tomu mohou přiblížit, ale pokud je model trénován pouze na textu, pravděpodobně opominou klíčové detaily o fyzických omezeních robota, jako je dosah jeho ramene nebo přítomnost překážek. Používání pouze LLM tak může vést k nepříjemným situacím, například k nalezení zbytků těstovin na podlaze.
Aby vědci z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) navedli roboty k provádění těchto otevřených úkolů, použili modely počítačového vidění k identifikaci okolí stroje a modelování jeho omezení. Strategie týmu zahrnuje LLM, který načrtne plán, který je v simulátoru kontrolován, zda je bezpečný a realistický. Pokud je daná posloupnost akcí neproveditelná, jazykový model vygeneruje nový plán, dokud nedospěje k takovému, který robot dokáže provést.
Tato metoda pokusů a omylů, kterou výzkumníci nazývají „Plánování pro roboty prostřednictvím kódu pro kontinuální uspokojování omezení“ (PRoC3S), testuje dlouhodobé plány, aby se ujistili, že splňují všechna omezení, a umožňuje robotovi provádět tak rozmanité úkoly, jako je psaní jednotlivých písmen, kreslení hvězdy a třídění a umísťování bloků do různých pozic. V budoucnu by PRoC3S mohl pomoci robotům plnit složitější úkoly v dynamických prostředích, jako jsou domy, kde mohou být vyzváni k provedení obecného úkolu složeného z mnoha kroků (například „udělej mi snídani“).
„LLM a klasické robotické systémy, jako jsou plánovače úkolů a pohybů, nemohou tyto typy úkolů provádět samostatně, ale jejich synergie umožňuje řešení otevřených problémů,“ říká doktorand Nishanth Kumar SM '24, hlavní autor nové práce o PRoC3S. „Vytváříme simulaci toho, co je kolem robota, a zkoušíme mnoho možných plánů akcí. Modely počítačového vidění nám pomáhají vytvořit velmi realistický digitální svět, který umožňuje robotovi uvažovat o proveditelných akcích pro každý krok dlouhodobého plánu.“
Práce týmu byla představena minulý měsíc na konferenci o robotickém učení (CoRL) v Mnichově v Německu.
Metoda výzkumníků využívá LLM předtrénovaný na textech z celého internetu. Než požádali PRoC3S o provedení úkolu, tým poskytl svému jazykovému modelu vzorový úkol (například kreslení čtverce), který souvisí s cílovým úkolem (kreslení hvězdy). Vzorový úkol zahrnuje popis aktivity, dlouhodobý plán a relevantní detaily o prostředí robota.
Ale jak si tyto plány vedly v praxi? V simulacích PRoC3S úspěšně nakreslil hvězdy a písmena v osmi z deseti případů. Dokázal také skládat digitální bloky do pyramid a linií a umísťovat předměty s přesností, například ovoce na talíř. Ve všech těchto digitálních ukázkách metoda CSAIL dokončila požadovaný úkol konzistentněji než srovnatelné přístupy, jako jsou „LLM3“ a „Kód jako politika“.
Inženýři CSAIL poté přenesli svůj přístup do reálného světa. Jejich metoda vyvinula a provedla plány na robotickém rameni, které ho naučilo umísťovat bloky do přímých linií. PRoC3S také umožnil stroji umístit modré a červené bloky do odpovídajících misek a přesunout všechny objekty blízko středu stolu.
Kumar a spoluautor Aidan Curtis SM '23, který je také doktorandem pracujícím v CSAIL, říkají, že tyto poznatky ukazují, jak může LLM vyvíjet bezpečnější plány, kterým lidé mohou důvěřovat v praxi. Výzkumníci si představují domácího robota, kterému lze dát obecnější požadavek (například „přines mi nějaké chipsy“) a spolehlivě zjistit specifické kroky potřebné k jeho provedení. PRoC3S by mohl pomoci robotovi otestovat plány v totožném digitálním prostředí, aby našel funkční postup – a co je důležitější, aby vám přinesl chutnou svačinu.
V budoucí práci si výzkumníci kladou za cíl zlepšit výsledky pomocí pokročilejšího fyzikálního simulátoru a rozšířit se na složitější dlouhodobé úkoly prostřednictvím škálovatelnějších technik vyhledávání dat. Dále plánují aplikovat PRoC3S na mobilní roboty, jako je čtyřnohý robot, pro úkoly, které zahrnují chůzi a skenování okolí.
„Použití základních modelů, jako je ChatGPT, k řízení akcí robota může vést k nebezpečným nebo nesprávným chováním kvůli halucinacím,“ říká výzkumník AI Institute Eric Rosen, který se na výzkumu nepodílí. „PRoC3S řeší tento problém využitím základních modelů pro vedení úkolů na vysoké úrovni, zatímco využívá techniky AI, které výslovně uvažují o světě, aby zajistily ověřitelně bezpečné a správné akce. Tato kombinace plánovacích a datově řízených přístupů může být klíčová k vývoji robotů schopných rozumět a spolehlivě provádět širší škálu úkolů, než je v současnosti možné.“
Související články
Šéfové technologických firem chválí Trumpův projekt umělé inteligence
Umělá inteligence změní váš trénink: Novinky ze světa fitness technologií a AI
Otázky a odpovědi: Dopad generativní AI na klima
Sdílet na sociálních sítích:
Komentáře