Mozková zraková dráha možná dělá víc než jen rozpoznávání objektů
Sdílet na sociálních sítích:
Výzkum pomocí výpočetních modelů zraku naznačuje, že mozková „břišní dráha“ je mnohem všestrannější, než se dosud předpokládalo.

Když zraková informace vstupuje do mozku, prochází dvěma drahami, které zpracovávají různé aspekty vstupu. Desítky let vědci předpokládali, že jedna z těchto drah, břišní zraková dráha, je zodpovědná za rozpoznávání objektů a že se mohla v průběhu evoluce k tomuto účelu optimalizovat.
V souladu s tím v posledním desetiletí vědci z MIT zjistili, že když jsou výpočetní modely anatomie břišní dráhy optimalizovány pro řešení úkolu rozpoznávání objektů, jsou pozoruhodně dobrými prediktory neuronální aktivity v břišní dráze.
V nové studii však výzkumníci z MIT ukázali, že když tyto typy modelů trénují na prostorových úlohách, výsledné modely jsou také poměrně dobrými prediktory neuronální aktivity břišní dráhy. To naznačuje, že břišní dráha nemusí být výhradně optimalizována pro rozpoznávání objektů.
„To ponechává otevřenou otázku, pro co je břišní dráha optimalizována. Myslím, že dominantní názor mnoha lidí v našem oboru je, že břišní dráha je optimalizována pro rozpoznávání objektů, ale tato studie nabízí nový pohled, že břišní dráha by mohla být optimalizována i pro prostorové úkoly,“ říká Yudi Xie, absolvent MIT a hlavní autor studie, která bude představena na Mezinárodní konferenci o učení reprezentací.
Mezi další autory studie patří Weichen Huang, hostující student v rámci programu MIT Research Science Institute; Esther Alter, softwarová inženýrka v MIT Quest for Intelligence; Jeremy Schwartz, člen technického personálu pro sponzorovaný výzkum; Joshua Tenenbaum, profesor neurověd a kognitivních věd; a James DiCarlo, profesor neurověd a kognitivních věd Peter de Florez, ředitel Quest for Intelligence a člen McGovern Institute for Brain Research at MIT.
Když se díváme na objekt, náš zrakový systém dokáže nejen identifikovat objekt, ale také určit další vlastnosti, jako je jeho poloha, vzdálenost od nás a jeho orientace v prostoru. Od začátku 80. let 20. století neurovědci předpokládají, že primátský zrakový systém je rozdělen do dvou drah: břišní dráhy, která plní úlohy rozpoznávání objektů, a hřbetní dráhy, která zpracovává vlastnosti související s prostorovou polohou.
V posledním desetiletí se vědci snaží modelovat břišní dráhu pomocí typu modelu hlubokého učení známého jako konvoluční neuronová síť (CNN). Vědci mohou tyto modely trénovat k provádění úkolů rozpoznávání objektů tak, že jim dodají datové sady obsahující tisíce obrázků spolu s popisky kategorií, které tyto obrázky popisují.
Nejmodernější verze těchto CNN mají vysokou míru úspěšnosti při kategorizaci obrázků. Navíc vědci zjistili, že vnitřní aktivace modelů jsou velmi podobné aktivitám neuronů, které zpracovávají zrakové informace v břišní dráze. Navíc čím více jsou tyto modely podobné břišní dráze, tím lépe plní úkoly rozpoznávání objektů. To vedlo mnoho výzkumníků k hypotéze, že dominantní funkcí břišní dráhy je rozpoznávání objektů.
Experimentální studie, zejména studie z laboratoře DiCarlo z roku 2016, však zjistily, že břišní dráha se zdá kódovat i prostorové vlastnosti. Mezi tyto vlastnosti patří velikost objektu, jeho orientace (o kolik je otočen) a jeho poloha v zorném poli. Na základě těchto studií se tým z MIT zaměřil na to, zda by břišní dráha mohla sloužit dalším funkcím než jen rozpoznávání objektů.
„Naše hlavní otázka v tomto projektu zněla, zda je možné uvažovat o břišní dráze jako o optimalizované pro provádění těchto prostorových úkolů namísto pouhých úkolů kategorizace?“ říká Xie.
Aby tuto hypotézu ověřili, výzkumníci se rozhodli trénovat CNN k identifikaci jedné nebo více prostorových vlastností objektu, včetně rotace, polohy a vzdálenosti. K trénování modelů vytvořili novou datovou sadu syntetických obrázků. Tyto obrázky ukazují objekty, jako jsou konvice nebo kalkulačky, překryté na různých pozadích, na místech a v orientacích, které jsou označeny tak, aby modelu pomohly se je naučit.
Výzkumníci zjistili, že CNN, které byly trénovány pouze na jednom z těchto prostorových úkolů, vykazovaly vysokou úroveň „neuro-zarovnání“ s břišní drahou – velmi podobnou úrovni, jaká je patrná u modelů CNN trénovaných na rozpoznávání objektů.
Výzkumníci měří neuro-zarovnání pomocí techniky, kterou vyvinula laboratoř DiCarlo, která spočívá v tom, že se modelů po natrénování požádá o předpověď neuronální aktivity, kterou by konkrétní obrázek vygeneroval v mozku. Výzkumníci zjistili, že čím lépe modely plnily prostorový úkol, na který byly trénovány, tím více neuro-zarovnání vykazovaly.
„Myslím, že nemůžeme předpokládat, že břišní dráha pouze kategorizuje objekty, protože mnoho z těchto dalších funkcí, jako jsou prostorové úkoly, může také vést k této silné korelaci mezi neuro-zarovnáním modelů a jejich výkonem,“ říká Xie. „Naším závěrem je, že můžete optimalizovat buď prostřednictvím kategorizace, nebo prováděním těchto prostorových úkolů, a obě vám poskytnou model podobný břišní dráze, na základě našich současných metrik pro hodnocení neuro-zarovnání.“
Výzkumníci poté zkoumali, proč tyto dva přístupy – trénování pro rozpoznávání objektů a trénování pro prostorové vlastnosti – vedly k podobným stupňům neuro-zarovnání. K tomu provedli analýzu známou jako centrované zarovnání jádra (CKA), která umožňuje měřit stupeň podobnosti mezi reprezentacemi v různých CNN. Tato analýza ukázala, že v raných až středních vrstvách modelů jsou reprezentace, které se modely učí, téměř nerozeznatelné.
„V těchto raných vrstvách modely v podstatě nelze odlišit pouhým pohledem na jejich reprezentace,“ říká Xie. „Zdá se, že se učí nějakou velmi podobnou nebo sjednocenou reprezentaci v raných až středních vrstvách a v pozdějších fázích se rozcházejí, aby podporovaly různé úkoly.“
Výzkumníci předpokládají, že i když jsou modely trénovány k analýze pouze jedné vlastnosti, berou v úvahu i „necílové“ vlastnosti – ty, na které nejsou trénovány. Když objekty vykazují větší variabilitu v necílových vlastnostech, modely mají tendenci učit se reprezentace podobnější těm, které se naučily modely trénované na jiných úkolech. To naznačuje, že modely využívají všechny dostupné informace, což může vést k tomu, že různé modely budou vytvářet podobné reprezentace, říkají výzkumníci.
„Více necílové variability ve skutečnosti pomáhá modelu naučit se lepší reprezentaci, namísto učení se reprezentace, která je jimi neznalá,“ říká Xie. „Je možné, že se modely, i když jsou trénovány na jednom cíli, současně učí i jiné věci kvůli variabilitě těchto necílových vlastností.“
V budoucí práci doufají výzkumníci, že vyvinou nové způsoby porovnávání různých modelů s nadějí, že se dozvědí více o tom, jak každý z nich vyvíjí interní reprezentace objektů na základě rozdílů v úlohách trénování a tréninkových datech.
„Mezi těmito modely by mohly být stále malé rozdíly, i když náš současný způsob měření toho, jak podobné jsou tyto modely mozku, nám říká, že jsou na velmi podobné úrovni. To naznačuje, že možná stále zbývá nějaká práce na vylepšení způsobu, jak můžeme model porovnat s mozkem, abychom lépe porozuměli tomu, pro co je vlastně břišní dráha optimalizována,“ říká Xie.
Výzkum byl financován společností Semiconductor Research Corporation a americkou agenturou Defense Advanced Research Projects Agency.
Související články
Stručná historie expanzní mikroskopie
McGovernov institut MIT: 25 let formování vědy o mozku a zlepšování lidských životů
Vědci pitvali výjimečně dobře zachovalé mamutí mládě z doby ledové
Sdílet na sociálních sítích:
Komentáře