Vytvořte si AI tutoriál na míru! Vyzkoušejte generátor tutoriálů a ušetřete čas.

Nový systém umožňuje robotům řešit manipulační problémy za sekundy

Sdílet na sociálních sítích:
Napsal: Jan Kubice
Umělá inteligence

Vědci z MIT a NVIDIA vyvinuli algoritmus, který umožňuje robotům „předvídat“ a zvažovat tisíce možných pohybových plánů současně.

Obrázek novinky

Nový systém umožňuje robotům řešit manipulační problémy za sekundy

Představte si balení kufru na dlouho očekávanou dovolenou. Pro člověka je to relativně jednoduchý úkol, i když vyžaduje trochu šikovnosti, aby se do kufru vešlo vše potřebné bez poškození křehkých předmětů.

Pro roboty je to však extrémně komplexní plánovací výzva, která vyžaduje současné zvažování mnoha akcí, omezení a mechanických možností. Nalezení efektivního řešení by robota mohlo stát velmi mnoho času – pokud by ho vůbec našel.

Vědci z MIT a NVIDIA Research vyvinuli nový algoritmus, který dramaticky urychluje plánovací proces robotů. Jejich přístup umožňuje robotům „předvídat“ vyhodnocením tisíců možných řešení paralelně a následným zdokonalením těch nejlepších tak, aby splňovaly omezení robota a jeho prostředí.

Na rozdíl od mnoha stávajících přístupů, které testují každou potenciální akci jednotlivě, tato nová metoda zvažuje tisíce akcí současně a řeší vícekrokové manipulační problémy během několika sekund.

Vědci využívají obrovský výpočetní výkon specializovaných procesorů zvaných grafické procesorové jednotky (GPU) k dosažení tohoto zrychlení.

V továrně nebo skladu by tato technika umožnila robotům rychle určit, jak manipulovat a těsně balit předměty různých tvarů a velikostí bez jejich poškození, převrácení nebo kolize s překážkami, a to i v úzkém prostoru.

„To by bylo velmi užitečné v průmyslových prostředích, kde čas skutečně hraje roli a je potřeba najít efektivní řešení co nejrychleji. Pokud váš algoritmus trvá minuty, než najde plán, na rozdíl od sekund, stojí to firmu peníze,“ říká William Shen SM '23, postgraduální student MIT a hlavní autor článku o této technice.

Na článku se podíleli také Caelan Garrett '15, MEng '15, PhD '21, vedoucí výzkumný pracovník v NVIDIA Research; Nishanth Kumar, postgraduální student MIT; Ankit Goyal, výzkumný pracovník NVIDIA; Tucker Hermans, výzkumný pracovník NVIDIA a docent na Univerzitě v Utahu; Leslie Pack Kaelbling, profesorka počítačové vědy a inženýrství na MIT a členka Laboratoře pro počítačovou vědu a umělou inteligenci (CSAIL); Tomás Lozano-Pérez, profesor počítačové vědy a inženýrství na MIT a člen CSAIL; a Fabio Ramos, hlavní výzkumný pracovník v NVIDIA a profesor na Univerzitě v Sydney. Výzkum bude prezentován na konferenci Robotics: Science and Systems Conference.

Paralelní plánování

Algoritmus vědců je navržen pro tzv. plánování úkolů a pohybu (TAMP). Cílem algoritmu TAMP je vytvořit plán úkolu pro robota, což je vysokoúrovňová sekvence akcí, spolu s plánem pohybu, který zahrnuje parametry nízkoúrovňových akcí, jako jsou polohy kloubů a orientace chapadla, které tento vysokoúrovňový plán dokončí.

Pro vytvoření plánu balení předmětů do krabice musí robot uvažovat o mnoha proměnných, jako je konečná orientace zabalených objektů, aby se k sobě hodily, a také o tom, jak je bude zvedat a manipulovat s nimi pomocí své paže a chapadla.

To musí dělat při určování, jak se vyhnout kolizím a dosáhnout všech uživatelem zadaných omezení, jako je určitý pořadí, ve kterém má balit předměty.

S tolika potenciálními sekvencemi akcí by náhodné vzorkování možných řešení a zkoušení jednoho po druhém mohlo trvat extrémně dlouho.

„Je to velmi velký vyhledávací prostor a mnoho akcí, které robot v tomto prostoru provádí, ve skutečnosti nedosahuje nic produktivního,“ dodává Garrett.

Algoritmus vědců, nazvaný cuTAMP, který je zrychlen pomocí paralelní výpočetní platformy CUDA, místo toho simuluje a zdokonaluje tisíce řešení paralelně. Dělá to kombinací dvou technik, vzorkování a optimalizace.

Vzorkování zahrnuje výběr řešení, které se má vyzkoušet. Ale místo náhodného vzorkování řešení, cuTAMP omezuje rozsah potenciálních řešení na ta, která s největší pravděpodobností uspokojí omezení problému. Tento upravený postup vzorkování umožňuje cuTAMP široce prozkoumat potenciální řešení a zároveň zúžit vzorkovací prostor.

„Jakmile kombinujeme výstupy těchto vzorků, dostaneme mnohem lepší výchozí bod, než kdybychom vzorkovali náhodně. To zajišťuje, že můžeme najít řešení rychleji během optimalizace,“ říká Shen.

Jakmile cuTAMP vygeneruje tuto sadu vzorků, provede paralelní optimalizační postup, který vypočítá cenu, která odpovídá tomu, jak dobře každý vzorek zabrání kolizím a uspokojuje pohybová omezení robota, stejně jako jakékoli uživatelem definované cíle.

Aktualizuje vzorky paralelně, vybere nejlepší kandidáty a opakuje proces, dokud je nezúží na úspěšné řešení.

Využití zrychleného výpočtu

Vědci využívají GPU, specializované procesory, které jsou pro paralelní výpočty a pracovní zatížení mnohem výkonnější než univerzální CPU, k navýšení počtu řešení, která mohou současně vzorkovat a optimalizovat. To maximalizovalo výkon jejich algoritmu.

„Pomocí GPU jsou výpočetní náklady na optimalizaci jednoho řešení stejné jako optimalizace stovek nebo tisíc řešení,“ vysvětluje Shen.

Když testovali svůj přístup na výzvách balení podobných Tetrisu v simulaci, cuTAMP našel úspěšné, bezkolizní plány, které by sekvenční plánovací přístupy mohly řešit mnohem déle, jen za několik sekund.

A když byl nasazen na skutečnou robotickou paži, algoritmus vždy našel řešení za méně než 30 sekund.

Systém funguje napříč roboty a byl testován na robotické paži na MIT a humanoidním robotovi v NVIDIA. Protože cuTAMP není algoritmus strojového učení, nevyžaduje žádná trénovací data, což by umožnilo jeho snadné nasazení v mnoha situacích.

„Můžete mu dát zcela nový problém a on ho prokazatelně vyřeší,“ říká Garrett.

Algoritmus je zobecnitelný na situace nad rámec balení, jako je robot používající nástroje. Uživatel by mohl do systému začlenit různé typy dovedností, aby automaticky rozšířil schopnosti robota.

V budoucnu chtějí vědci využít velké jazykové modely a modely jazyka a obrazu v rámci cuTAMP, což robotovi umožní formulovat a vykonávat plán, který dosahuje specifických cílů na základě hlasových příkazů od uživatele.

Tato práce je částečně podporována Národní vědeckou nadací (NSF), Úřadem pro vědecký výzkum letectva, Úřadem pro námořní výzkum, MIT Quest for Intelligence, NVIDIA a Institutem pro robotiku a umělou inteligenci.

Související články

Sdílet na sociálních sítích:

Komentáře

Zatím žádné komentáře. Buďte první, kdo napíše svůj názor!