Nový nástroj vyhodnocuje pokrok v posilujícím učení
Sdílet na sociálních sítích:
IntersectionZoo, nový benchmarkovací nástroj, testuje algoritmy hlubokého posilujícího učení na reálném problému městské dopravy.

Neustálé zastavování a rozjíždění v městské dopravě, způsobené střídáním semaforů a manévrováním vozidel, je extrémně neefektivní a zvyšuje emise znečišťujících látek, včetně skleníkových plynů, na ujetý kilometr.
Jedním z přístupů k řešení tohoto problému je tzv. eko-řízení, které lze instalovat jako řídicí systém v autonomních vozidlech pro zlepšení jejich efektivity.
Jak velký by to mohl mít dopad? Stála by investice do této technologie za snížení emisí? Odpovědi na tyto otázky patří do široké kategorie optimalizačních problémů, které jsou pro výzkumníky obtížně řešitelné a jejichž řešení je obtížné testovat. Jsou to problémy, které zahrnují mnoho různých agentů, jako jsou různé druhy vozidel v městě, a různé faktory ovlivňující jejich emise, včetně rychlosti, počasí, stavu vozovky a načasování semaforů.
„Před několika lety nás zaujala otázka: Mohou automatizovaná vozidla něco udělat pro zmírnění emisí?“, říká Cathy Wu, profesorka na katedře stavebního a environmentálního inženýrství a Institutu pro data, systémy a společnost (IDSS) na MIT a hlavní výzkumná pracovnice v Laboratoři pro informační a rozhodovací systémy. „Je to jen kapka v moři, nebo je to něco, o čem bychom měli přemýšlet?“, ptala se.
Aby se zodpověděla taková otázka zahrnující tolik komponent, je prvním krokem shromáždit všechna dostupná data o systému z mnoha zdrojů. Jedním z nich je rozložení topologie sítě, říká Wu, v tomto případě mapa všech křižovatek v každém městě. Dále existují data Geologického průzkumu USA ukazující nadmořské výšky pro určení sklonu silnic. Existují také data o teplotě a vlhkosti, data o druzích a stáří vozidel a o druzích paliv.
Eko-řízení zahrnuje drobné úpravy pro minimalizaci zbytečné spotřeby paliva. Například, když se auto blíží k semaforu, který se rozsvítil na červeno, „nemá smysl jet co nejrychleji k červené,“ říká. Pouhým popojížděním „nespotřebovávám v mezidobí benzín ani elektřinu.“ Pokud jedno auto, například automatizované vozidlo, zpomalí u křižovatky, i běžná, neautomatizovaná auta za ním budou nucena zpomalit, takže dopad takového efektivního řízení může sahat daleko za hranice samotného vozidla.
To je základní myšlenka eko-řízení, říká Wu. Ale aby se zjistily dopady takových opatření, „jedná se o náročné optimalizační problémy“ zahrnující mnoho různých faktorů a parametrů, „proto je nyní velký zájem o to, jak řešit složité řídicí problémy pomocí AI.“
Nový benchmarkovací systém, který Wu a její spolupracovníci vyvinuli na základě městského eko-řízení a nazvali ho „IntersectionZoo“, má pomoci částečně řešit tuto potřebu. Benchmark byl podrobně popsán v článku prezentovaném na Mezinárodní konferenci o reprezentačním učení v roce 2025 v Singapuru.
Při pohledu na přístupy, které byly použity k řešení takových komplexních problémů, Wu říká, že důležitou kategorií metod je hluboké posilující učení s více agenty (DRL), ale nedostatek adekvátních standardních benchmarků k vyhodnocení výsledků těchto metod bránil pokroku v této oblasti.
Nový benchmark má řešit důležitý problém, který Wu a její tým identifikovali před dvěma lety, a to, že u většiny existujících algoritmů hlubokého posilujícího učení, když jsou trénovány pro jednu specifickou situaci (např. jednu konkrétní křižovatku), výsledek nezůstane relevantní, když se provedou i malé úpravy, jako je přidání cyklistické stezky nebo změna načasování semaforu, i když je povoleno trénovat pro upravený scénář.
Ve skutečnosti, Wu upozorňuje, že tento problém ne-zobecnitelnosti „není unikátní pro dopravu,“ říká. „Saha až k kanonickým úlohám, které komunita používá k vyhodnocení pokroku v návrhu algoritmů.“ Ale protože většina takových kanonických úloh nezahrnuje provádění úprav, „je těžké vědět, zda váš algoritmus dělá pokrok v tomto druhu robustnosti, pokud to nehodnotíme.“
Ačkoli existuje mnoho benchmarků, které se v současné době používají k vyhodnocení algoritmického pokroku v DRL, říká, že „tento problém eko-řízení má bohatou sadu charakteristik, které jsou důležité při řešení problémů v reálném světě, zejména z hlediska zobecnitelnosti, a žádný jiný benchmark je nesplňuje.“ Proto 1 milion scénářů městské dopravy založených na datech v IntersectionZoo jej jedinečně pozicionuje k podpoře pokroku v zobecnitelnosti DRL. Výsledkem je, že „tento benchmark zvyšuje rozmanitost způsobů, jak vyhodnocovat algoritmy hlubokého posilujícího učení a pokrok.“
A pokud jde o počáteční otázku týkající se městské dopravy, jedním z cílů probíhající práce bude aplikovat tento nově vyvinutý benchmarkovací nástroj na řešení konkrétního případu, jaký dopad na emise by mělo zavedení eko-řízení v automatizovaných vozidlech ve městě v závislosti na tom, jaké procento takových vozidel je skutečně nasazeno.
Ale Wu dodává, že „spíše než vytvářet něco, co by mohlo nasadit eko-řízení v měřítku celého města, hlavním cílem této studie je podpořit vývoj univerzálních algoritmů hlubokého posilujícího učení, které lze aplikovat na tuto aplikaci, ale také na všechny ostatní aplikace – autonomní řízení, videohry, bezpečnostní problémy, robotické problémy, skladování, klasické řídicí problémy.“
Wu dodává, že „cílem projektu je poskytnout tento nástroj výzkumníkům, který je volně dostupný.“ IntersectionZoo a dokumentace k jeho použití jsou volně dostupné na GitHubu.
Wu se na článku podílela s hlavními autory Vindulou Jayawardana, postgraduální studentkou na katedře elektrotechniky a informatiky (EECS) na MIT; Baptiste Freydt, postgraduální student z ETH Zurich; a spoluautory Ao Qu, postgraduální student v oblasti dopravy; Cameron Hickert, postgraduální student IDSS; a Zhongxia Yan PhD '24.
Související články
Umělá inteligence ve školní lavici: Texaská škola s AI tutory
Čínský humanoidní robot Iron s orlím zrakem a výkonnou umělou inteligencí
Hybridní AI model vytváří plynulé, vysoce kvalitní videa za sekundy
Sdílet na sociálních sítích:
Komentáře