Vytvořte si AI tutoriál na míru! Vyzkoušejte generátor tutoriálů a ušetřete čas.

Rozklad zaujatosti velkých jazykových modelů

Sdílet na sociálních sítích:
Napsal: Jan Kubice
Umělá inteligence

Vědci z MIT odhalili příčinu zaujatosti u velkých jazykových modelů (LLM), která upřednostňuje informace na začátku a konci dokumentu. Tento objev otevírá cestu k přesnějším systémům AI.

Obrázek novinky

Rozklad zaujatosti velkých jazykových modelů

Výzkum ukázal, že velké jazykové modely (LLM) mají tendenci přeceňovat informace na začátku a na konci dokumentu nebo konverzace a zanedbávat střední část. Tato „zaujatost pozicí“ znamená, že pokud právník používá virtuálního asistenta s podporou LLM k vyhledání určité fráze ve 30stránkovém prohlášení, LLM má větší pravděpodobnost, že najde správný text, pokud se nachází na úvodních nebo závěrečných stránkách.

Vědci z MIT objevili mechanismus, který stojí za tímto fenoménem. Vytvořili teoretický rámec pro studium toho, jak informace proudí skrz architekturu strojového učení, která tvoří páteř LLM. Zjistili, že určité volby návrhu, které řídí způsob, jakým model zpracovává vstupní data, mohou způsobit zaujatost pozicí.

Experimenty ukázaly, že architektury modelů, zejména ty, které ovlivňují způsob šíření informací mezi vstupními slovy v modelu, mohou vést k zaujatosti pozicí nebo ji zesilovat, a že k problému přispívají i trénovací data.

Kromě určení původu zaujatosti pozicí lze jejich rámec použít k diagnostice a opravě v budoucích návrzích modelů. To by mohlo vést k spolehlivějším chatbotům, které se během dlouhých konverzací drží tématu, k lékařským systémům AI, které uvažují spravedlivěji při zpracování velkého množství dat pacientů, a k pomocníkům kódu, kteří věnují větší pozornost všem částem programu.

„Tyto modely jsou černé skříňky, takže jako uživatel LLM pravděpodobně nevíte, že zaujatost pozicí může způsobit, že váš model bude nekonzistentní. Jednoduše do něj zadáte dokumenty v libovolném pořadí a očekáváte, že bude fungovat. Ale lepším pochopením základního mechanismu těchto modelů typu „černá skříňka“ je můžeme zlepšit řešením těchto omezení,“ říká Xinyi Wu, postgraduální studentka MIT Institute for Data, Systems, and Society (IDSS) a Laboratory for Information and Decision Systems (LIDS) a první autorka článku o tomto výzkumu.

Jejími spoluautory jsou Yifei Wang, postdoktorand MIT; a hlavní autoři Stefanie Jegelka, docentka elektrotechniky a informatiky (EECS) a členka IDSS a Computer Science and Artificial Intelligence Laboratory (CSAIL); a Ali Jadbabaie, profesor a vedoucí katedry stavebnictví a inženýrství životního prostředí, klíčový člen IDSS a hlavní výzkumný pracovník LIDS. Výzkum bude prezentován na Mezinárodní konferenci o strojovém učení.

Analýza pozornosti

LLM, jako jsou Claude, Llama a GPT-4, jsou poháněny typem architektury neuronové sítě známé jako transformátor. Transformátory jsou navrženy tak, aby zpracovávaly sekvenční data, kódovaly větu do bloků zvaných tokeny a poté se učily vztahy mezi tokeny, aby předpovídaly, která slova přijdou dál.

Tyto modely se v tom značně zlepšily díky mechanismu pozornosti, který pomocí propojených vrstev uzlů zpracování dat dává smysl kontextu tím, že umožňuje tokenům selektivně se zaměřit na související tokeny.

Ale pokud může každý token věnovat pozornost každému jinému tokenu ve 30stránkovém dokumentu, rychle se to stane výpočetně neřešitelným. Takže když inženýři budují transformátorové modely, často používají techniky maskování pozornosti, které omezují slova, na která se může token zaměřit.

Například kauzální maska umožňuje slovům věnovat pozornost pouze těm, která ji předcházela.

Inženýři také používají poziční kódování, aby pomohli modelu pochopit umístění každého slova ve větě, čímž se zlepšuje výkon.

Vědci z MIT vytvořili teoretický rámec založený na grafech, aby prozkoumali, jak tyto volby modelování, masky pozornosti a poziční kódování, mohou ovlivnit zaujatost pozicí.

„Vše je propojeno a zamotané v mechanismu pozornosti, takže je velmi těžké to studovat. Grafy jsou flexibilní jazyk pro popis závislého vztahu mezi slovy v mechanismu pozornosti a jejich sledování napříč více vrstvami,“ říká Wu.

Teoretická analýza naznačila, že kauzální maskování dává modelu inherentní zaujatost směrem k začátku vstupu, i když tato zaujatost v datech neexistuje.

Pokud jsou dřívější slova pro význam věty relativně nepodstatná, kauzální maskování může způsobit, že se transformátor bude více soustředit na svůj začátek.

„Ačkoli je často pravda, že začáteční a závěrečná slova ve větě jsou důležitější, pokud se LLM používá na úkol, který není generováním přirozeného jazyka, například hodnocením nebo vyhledáváním informací, může být tato zaujatost extrémně škodlivá,“ říká Wu.

Jak model roste s dalšími vrstvami mechanismu pozornosti, tato zaujatost se zvětšuje, protože dřívější části vstupu se častěji používají v procesu uvažování modelu.

Zjistili také, že použití pozičního kódování k silnějšímu propojení slov s blízkými slovy může zmírnit zaujatost pozicí. Tato technika znovu zaměřuje pozornost modelu na správné místo, ale její účinek může být v modelech s více vrstvami pozornosti zředěn.

A tyto volby návrhu jsou pouze jednou příčinou zaujatosti pozicí – některé mohou pocházet z trénovacích dat, která model používá k učení, jak prioritizovat slova v sekvenci.

„Pokud víte, že vaše data jsou určitým způsobem zaujatá, měli byste také doladit svůj model na vrcholu úpravy voleb modelování,“ říká Wu.

Ztraceni uprostřed

Poté, co vytvořili teoretický rámec, provedli výzkumníci experimenty, ve kterých systematicky měnili pozici správné odpovědi v textových sekvencích pro úkol vyhledávání informací.

Experimenty ukázaly fenomén „ztraceni uprostřed“, kde přesnost vyhledávání sledovala U-válný vzor. Modely dosahovaly nejlepších výsledků, pokud se správná odpověď nacházela na začátku sekvence. Výkon klesal, čím blíže se dostávala k středu, než se opět trochu zvedl, pokud byla správná odpověď na konci.

V konečném důsledku jejich práce naznačuje, že použití jiné techniky maskování, odstranění dalších vrstev z mechanismu pozornosti nebo strategické použití pozičního kódování by mohlo snížit zaujatost pozicí a zlepšit přesnost modelu.

„Provedením kombinace teorie a experimentů jsme se mohli podívat na důsledky voleb návrhu modelu, které v té době nebyly jasné. Pokud chcete použít model ve vysoce rizikových aplikacích, musíte vědět, kdy bude fungovat, kdy ne a proč,“ říká Jadbabaie.

V budoucnu chtějí výzkumníci dále zkoumat účinky pozičního kódování a studovat, jak by mohla být zaujatost pozicí strategicky využita v určitých aplikacích.

„Tito výzkumníci nabízejí vzácný teoretický pohled na mechanismus pozornosti v jádru transformátorového modelu. Poskytují přesvědčivou analýzu, která objasňuje dlouholeté zvláštnosti v chování transformátorů a ukazuje, že mechanismy pozornosti, zejména s kauzálními maskami, inherentně zaujímá modely směrem k začátku sekvencí. Článek dosahuje toho nejlepšího z obou světů – matematické jasnosti v kombinaci s poznatky, které sahají do útrob reálných systémů,“ říká Amin Saberi, profesor a ředitel Centra pro výpočetní návrh trhu na Stanfordské univerzitě, který se na této práci nepodílel.

Tento výzkum je částečně podporován Úřadem námořního výzkumu USA, Národní vědeckou nadací a profesurou Alexandra von Humboldta.

Související články

Sdílet na sociálních sítích:

Komentáře

Zatím žádné komentáře. Buďte první, kdo napíše svůj názor!