Dopamin, mocný signál v mozku, ovlivňuje nálady, motivaci, pohyby a další procesy. Tento neurotransmiter je klíčový pro učení založené na odměně, funkci, která může být narušena u řady psychiatrických onemocnění, od poruch nálad až po závislosti.
Vědci vedení profesorkou Ann Graybielovou z MIT objevili překvapivé vzorce dopaminového signalizace, které naznačují, že neurovědci možná budou muset zpřesnit svůj model toho, jak probíhá posilující učení v mozku. Výsledky výzkumu byly nedávno publikovány v časopise Nature Communications.
Dopamin hraje kritickou roli ve vštěpování znalostí lidem a dalším zvířatům o signálech a chování, která předznamenávají pozitivní i negativní výsledky; klasickým příkladem tohoto typu učení je Pavlovův pes, který se naučil očekávat jídlo při zvuku zvonku. Graybielová, která je také vědkyní v MIT's McGovern Institute, vysvětluje, že podle standardního modelu posilujícího učení, když je zvíře vystaveno signálu spárovanému s odměnou, buňky produkující dopamin zpočátku reagují na odměnu. Jakmile se zvíře naučí asociaci mezi signálem a odměnou, načasování uvolňování dopaminu se posune, takže se stává spíše spojeným se signálem než s odměnou samotnou.
Ale s novými nástroji umožňujícími podrobnější analýzu, kdy a kde se dopamin v mozku uvolňuje, Graybielův tým zjišťuje, že tento model ne zcela odpovídá skutečnosti. Skupina začala sbírat stopy, že model posilujícího učení v oboru je neúplný, a to již před více než 10 lety, když si Mark Howe, postgraduální student v laboratoři, všiml, že dopaminové signály spojené s odměnou se neuvolňují v náhlé vlně v okamžiku získání odměny, ale dříve, postupně se zvyšující se s blížící se odměnou pro krysu. Dopamin může ve skutečnosti komunikovat se zbytkem mozku o blízkosti odměny, uvažovali. „To vůbec nesedělo se standardním, kanonickým modelem,“ říká Graybielová.
Dopaminová dynamika
Když jiní neurovědci zvažovali, jak by model posilujícího učení mohl tyto poznatky zohlednit, Graybielová a postdoktorandka Min Jung Kim se rozhodly podrobněji prozkoumat dopaminovou dynamiku. „Řekli jsme si: Pojďme se vrátit k nejzákladnějšímu druhu experimentu a začněme znovu od začátku,“ říká.
To znamenalo použití citlivých nových dopaminových senzorů ke sledování uvolňování neurotransmiteru v mozku myší, když se učily spojovat modré světlo s uspokojujícím douškem vody. Tým se zaměřil na striatum, oblast v bazálních gangliích mozku, kde neurony používají dopamin k ovlivnění neuronových obvodů zapojených do různých procesů, včetně učení založeného na odměně.
Vědci zjistili, že načasování uvolňování dopaminu se lišilo v různých částech striata. Ale nikde Graybielův tým nenašel přechod v načasování uvolňování dopaminu z doby odměny na dobu signálu – klíčový přechod předpovězený standardním modelem posilujícího učení.
V nejjednodušších experimentech týmu, kde pokaždé, když myš viděla světlo, byla spárována s odměnou, laterální část striata spolehlivě uvolňovala dopamin, když dostávala vodu. Tato silná reakce na odměnu nikdy neoslabovala, ani když se myši naučily očekávat odměnu, když viděly světlo. V mediální části striata se naopak dopamin nikdy neuvolňoval v době odměny. Buňky tam vždycky reagovaly, když myš viděla světlo, a to i na začátku procesu učení. To bylo matoucí, říká Graybielová, protože na začátku učení by se předpokládalo, že dopamin bude reagovat na samotnou odměnu.
Vzorce uvolňování dopaminu se staly ještě neočekávanějšími, když Graybielův tým do svého experimentálního nastavení zavedl druhé světlo. Nové světlo, v jiné poloze než první, nesignalizovalo odměnu. Myši sledovaly, jak se jedno z obou světel používalo jako signál, vždy jedno najednou, přičemž voda doprovázela pouze původní signál.
V těchto experimentech, když myši viděly světlo spojené s odměnou, uvolňování dopaminu v centromediálním striatu vzrostlo a překvapivě zůstalo zvýšené, dokud nebyla doručena odměna. V laterální části oblasti dopamin také zahrnoval prodloužené období, kdy signalizace dosáhla plošiny.
Graybielová říká, že byla překvapena, jak moc se dopaminové reakce změnily, když experimentátoři zavedli druhé světlo. Reakce na odměňované světlo byly odlišné, když se v jiných pokusech mohlo objevit i druhé světlo, i když myši viděly vždy jen jedno světlo najednou. „Tady musí hrát roli nějaký kognitivní aspekt,“ říká. „Mozek si chce podržet informaci, že signál se objevil, po určitou dobu.“ Buňky ve striatu zdánlivě toho dosahují prostřednictvím prodlouženého uvolňování dopaminu, které pokračovalo během krátkého zpoždění mezi světlem a odměnou v experimentech týmu. Graybielová skutečně říká, že zatímco tento druh prodlouženého uvolňování dopaminu nebyl dříve spojován s posilujícím učením, připomíná prodlouženou signalizaci, která byla spojena s pracovní pamětí v jiných částech mozku.
Posilující učení, přehodnoceno
Graybielová nakonec říká: „Mnoho našich výsledků nesedělo s modely posilujícího učení, jak jsou tradičně – a mezitím kanonicky – chápány.“ To naznačuje, že chápání tohoto procesu neurovědci bude muset dále rozvíjet jako součást prohlubujícího se chápání mozku. „Ale to je jen jeden krok, který nám všem pomůže zpřesnit naše chápání a umožní přeformulování modelů, jak bazální ganglia ovlivňují pohyb, myšlení a emoce. Tyto reformulace budou muset zahrnovat překvapení ohledně systému posilujícího učení, co se týče těchto plató, ale mohly by nám poskytnout vhled do toho, jak jedna zkušenost může přetrvávat v této s posilováním související části našich mozků,“ říká.
Tato studie byla financována Národními instituty zdraví, William N. a Bernice E. Bumpus Foundation, Saks Kavanaugh Foundation, CHDI Foundation, Joan a Jim Schattinger a Lisou Yang.
Související články
Generativní modely pro simulaci molekulárního světa
Nový obecný zákon řídí energii lomu sítí napříč materiály a měřítky
Karl Berggren novým vedoucím katedry elektrotechniky na MIT
Sdílet na sociálních sítích:
Komentáře