Jazykové chyby a stylistika ovlivňují doporučení AI v medicíně
Sdílet na sociálních sítích:
Výzkum MIT ukazuje, že chyby v psaní, stylistika a další neklinické informace v pacientech zprávách snižují přesnost AI modelů při doporučování léčby.

Podle studie výzkumníků MIT může velký jazykový model (LLM) použitý k doporučování léčby selhat kvůli neklinickým informacím v zprávách pacientů, jako jsou překlepy, nadbytečné mezery, chybějící značení pohlaví nebo použití nejistého, dramatického a neformálního jazyka.
Zjistili, že stylistické nebo gramatické změny v zprávách zvyšují pravděpodobnost, že LLM doporučí pacientovi samoléčbu namísto návštěvy lékaře, a to i v případě, kdy by pacient měl vyhledat lékařskou pomoc.
Analýza také odhalila, že tyto neklinické variace v textu, které napodobují skutečnou komunikaci lidí, s větší pravděpodobností změní doporučení modelu pro pacientky, což vede k vyššímu procentu žen, kterým bylo mylně doporučeno nevyhledávat lékařskou péči, podle názoru lékařů.
„Tato práce je silným důkazem, že modely musí být auditovány před použitím ve zdravotnictví – prostředí, kde se již používají,“ říká Marzyeh Ghassemi, docentka na MIT Department of Electrical Engineering and Computer Science (EECS), členka Institute of Medical Engineering Sciences a Laboratory for Information and Decision Systems a hlavní autorka studie.
Tyto poznatky ukazují, že LLMy berou neklinické informace v úvahu pro klinické rozhodování dosud neznámými způsoby. To ukazuje na potřebu důkladnějších studií LLMů, než budou nasazeny pro vysoce rizikové aplikace, jako je doporučování léčby, říkají výzkumníci.
„Tyto modely se často trénují a testují na otázkách z lékařských zkoušek, ale poté se používají v úlohách, které jsou od toho dost vzdálené, například při hodnocení závažnosti klinického případu. O LLMech stále ještě tolik nevíme,“ dodává Abinitha Gourabathina, postgraduální studentka EECS a hlavní autorka studie.
Studii, která bude prezentována na konferenci ACM o spravedlnosti, odpovědnosti a transparentnosti, doplnili postgraduální studentka Eileen Pan a postdoktorand Walter Gerych. Zde je odkaz na studii.
Velké jazykové modely, jako je OpenAI's GPT-4, se používají k sestavování klinických poznámek a třídění zpráv pacientů ve zdravotnických zařízeních po celém světě, aby se zefektivnily některé úkoly a pomohly přetíženým lékařům.
Rostoucí množství prací zkoumalo klinické uvažování LLMů, zejména z hlediska spravedlnosti, ale jen málo studií hodnotilo, jak neklinické informace ovlivňují úsudek modelu.
Gourabathina, která se zajímala o to, jak pohlaví ovlivňuje uvažování LLM, provedla experimenty, při nichž zaměnila náznaky pohlaví v poznámkách pacientů. Byla překvapena, že chyby formátování v pokynech, jako jsou nadbytečné mezery, způsobily smysluplné změny v odpovědích LLM.
Aby tento problém prozkoumali, výzkumníci navrhli studii, v níž upravili vstupní data modelu záměnou nebo odstraněním markerů pohlaví, přidáním barvitého nebo nejistého jazyka nebo vložením dalších mezer a překlepů do zpráv pacientů.
Každá změna byla navržena tak, aby napodobovala text, který by mohl napsat pacient z ohrožené populace, na základě psychosociálního výzkumu toho, jak lidé komunikují s lékaři.
Například další mezery a překlepy simulují psaní pacientů s omezenou znalostí angličtiny nebo s menší technickou zkušeností a přidání nejistého jazyka představuje pacienty s úzkostí ze zdraví.
„Soupravy lékařských dat, na kterých se tyto modely trénují, jsou obvykle vyčištěné a strukturované a nejsou realistickým odrazem populace pacientů. Chtěli jsme zjistit, jak tyto velmi realistické změny v textu mohou ovlivnit následné použití,“ říká Gourabathina.
Použili LLM k vytvoření perturbovaných kopií tisíců poznámek pacientů, přičemž se ujistili, že změny textu byly minimální a zachovaly všechna klinická data, jako jsou léky a předchozí diagnóza. Poté vyhodnotili čtyři LLMy, včetně velkého komerčního modelu GPT-4 a menšího LLM vytvořeného speciálně pro lékařská prostředí.
Každý LLM vyzvali třemi otázkami na základě poznámky pacienta: Měl by se pacient léčit doma, měl by přijít na kliniku a měly by být pacientovi přiděleny lékařské zdroje, jako je laboratorní test.
Výzkumníci porovnali doporučení LLM se skutečnými klinickými odpověďmi.
Viděli nekonzistence v doporučeních léčby a značné neshody mezi LLMy, když dostali perturbovaná data. Napříč všemi LLMy vykazovaly 7 až 9% nárůst v návrzích na samoléčbu pro všech devět typů upravených zpráv pacientů.
To znamená, že LLMy s větší pravděpodobností doporučovali pacientům, aby nevyhledávali lékařskou péči, když zprávy obsahovaly překlepy nebo rodově neutrální zájmena. Použití barvitého jazyka, jako je slang nebo dramatické výrazy, mělo největší dopad.
Zjistili také, že modely udělaly asi o 7 % více chyb u pacientek a s větší pravděpodobností doporučily pacientkám samoléčbu doma, i když výzkumníci odstranili všechny náznaky pohlaví z klinického kontextu.
Mnoho nejhorších výsledků, například pacientům, kterým bylo řečeno, aby se léčili sami, i když mají závažný zdravotní stav, by pravděpodobně nebylo zachyceno testy, které se zaměřují na celkovou klinickou přesnost modelů.
„Ve výzkumu se máme tendenci dívat na agregované statistiky, ale existuje mnoho věcí, které se ztratí v překladu. Musíme se podívat na směr, kterým se tyto chyby vyskytují – nedoporučit návštěvu, když byste měli, je mnohem škodlivější než udělat opak,“ říká Gourabathina.
Nekonzistence způsobené neklinickým jazykem se stávají ještě výraznějšími v konverzačních prostředích, kde LLM interaguje s pacientem, což je běžný případ použití pro chatovací roboty pro pacienty.
Ale v následné práci výzkumníci zjistili, že tyto stejné změny v zprávách pacientů neovlivňují přesnost lidských lékařů.
„V naší následné práci, která je v recenzním řízení, dále zjišťujeme, že velké jazykové modely jsou křehké na změny, na které lidské lékaři nejsou,“ říká Ghassemi. „To je snad překvapující – LLMy nebyly navrženy tak, aby dávaly přednost lékařské péči o pacienty. LLMy jsou flexibilní a dostatečně výkonné v průměru, že bychom si mohli myslet, že se jedná o dobrý případ použití. Ale nechceme optimalizovat systém zdravotní péče, který funguje dobře pouze pro pacienty ve specifických skupinách.“
Výzkumníci chtějí tuto práci rozšířit o navrhování perturbací přirozeného jazyka, které zachytí další ohrožené populace a lépe napodobují skutečné zprávy. Chtějí také prozkoumat, jak LLMy odvozují pohlaví z klinického textu.
Související články
MIT a Mass General Brigham spouštějí společný program pro urychlení inovací ve zdravotnictví
Únik více než 8 milionů záznamů o pacientech v důsledku narušení zabezpečení dat
Vaše zdravotní data se prodávají bez vašeho souhlasu
Sdílet na sociálních sítích:
Komentáře