Představte si, že se snažíte vyfotit všech přibližně 11 000 druhů stromů v Severní Americe. To je jen zlomek milionů fotografií v databázích přírodních snímků. Tyto rozsáhlé sbírky obrázků – od motýlů po keporkaky – jsou pro ekology skvělým výzkumným nástrojem, protože poskytují důkazy o jedinečném chování organismů, vzácných podmínkách, migračních vzorcích a reakcích na znečištění a další formy klimatických změn.
Přestože jsou databáze přírodních snímků komplexní, nejsou ještě tak užitečné, jak by mohly být. Prohledávání těchto databází a vyhledávání obrázků nejrelevantnějších k vaší hypotéze je časově náročné. Lepší by bylo mít automatizovaného výzkumného asistenta – nebo možná systémy umělé inteligence nazývané multimodální jazykové modely s vizuální složkou (VLMs). Ty jsou trénovány jak na textu, tak na obrázcích, což jim usnadňuje identifikaci jemnějších detailů, jako jsou specifické stromy v pozadí fotografie.
Ale jak dobře mohou VLMs asistovat výzkumníkům přírody při vyhledávání obrázků? Tým z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), University College London, iNaturalist a dalších institucí navrhl test výkonnosti, aby to zjistil. Úkolem každého VLM bylo vyhledat a reorganizovat nejrelevantnější výsledky v datové sadě týmu „INQUIRE“, která se skládá z 5 milionů obrázků volně žijících živočichů a 250 vyhledávacích dotazů od ekologů a dalších odborníků na biologickou rozmanitost.
V těchto hodnoceních výzkumníci zjistili, že větší a pokročilejší VLMs, které jsou trénovány na mnohem větším množství dat, někdy dokáží výzkumníkům poskytnout výsledky, které chtějí vidět. Modely dosahovaly poměrně dobrých výsledků u jednoduchých dotazů týkajících se vizuálního obsahu, jako je identifikace trosek na útesu, ale u dotazů vyžadujících odborné znalosti, jako je identifikace specifických biologických podmínek nebo chování, se potýkaly se značnými problémy. Například VLMs poměrně snadno odhalily příklady medúz na pláži, ale měly problémy s technickými dotazy, jako je „axanthismus u zelené žáby“, stav, který omezuje jejich schopnost zbarvit kůži do žluta.
Zjištění ukazují, že modely potřebují mnohem více dat specifických pro danou oblast, aby dokázaly zpracovat obtížné dotazy. Edward Vendrow, doktorand MIT a spolupracovník CSAIL, který vedl práci na datové sadě v nové studii, věří, že seznámením s informativnějšími daty by se VLMs mohly jednoho dne stát skvělými výzkumnými asistenty. „Chceme vytvořit systémy vyhledávání, které najdou přesně ty výsledky, které vědci hledají při monitorování biologické rozmanitosti a analýze klimatických změn,“ říká Vendrow. „Multimodální modely zatím úplně nerozumí složitějšímu vědeckému jazyku, ale věříme, že INQUIRE bude důležitým měřítkem pro sledování, jak se zlepšují v chápání vědecké terminologie a nakonec pomohou vědcům automaticky najít přesně ty obrázky, které potřebují.“
Experimenty týmu ukázaly, že větší modely měly tendenci být efektivnější jak u jednodušších, tak u složitějších vyhledávání díky rozsáhlým trénovacím datům. Nejprve použili datovou sadu INQUIRE k otestování, zda VLMs dokáží zúžit soubor 5 milionů obrázků na 100 nejrelevantnějších výsledků (známé také jako „řazení“). U jednoduchých vyhledávacích dotazů, jako je „útes s umělými strukturami a troskami“, našly odpovídající obrázky relativně velké modely, jako je „SigLIP“, zatímco menší modely CLIP měly problémy. Podle Vendrowa jsou větší VLMs „teprve na začátku své užitečnosti“ při řazení obtížnějších dotazů.
Vendrow a jeho kolegové také vyhodnotili, jak dobře dokáží multimodální modely přeřadit těchto 100 výsledků, a reorganizovat, které obrázky jsou nejrelevantnější pro vyhledávání. V těchto testech i obrovské LLMs trénované na více kurátorovaných datech, jako je GPT-4o, měly problémy: Jeho skóre přesnosti bylo pouze 59,6 procenta, nejvyšší skóre, kterého dosáhl jakýkoli model.
Výzkumníci prezentovali tyto výsledky na konferenci o neuronovém zpracování informací (NeurIPS) na začátku tohoto měsíce.
Datová sada INQUIRE zahrnuje vyhledávací dotazy založené na diskusích s ekology, biology, oceánografy a dalšími experty o typech obrázků, které by hledali, včetně jedinečných fyzických podmínek a chování zvířat. Tým anotátorů poté strávil 180 hodin prohledáváním datové sady iNaturalist s těmito dotazy a pečlivě procházel přibližně 200 000 výsledků, aby označil 33 000 shod, které odpovídají výzvám.
Anotátoři například použili dotazy, jako je „poustevník používající plastový odpad jako ulitu“ a „kalifornský kondor označený zelenou „26““, aby identifikovali podmnožiny větší datové sady obrázků, které zobrazují tyto specifické, vzácné události.
Poté výzkumníci použili stejné vyhledávací dotazy, aby zjistili, jak dobře VLMs dokáží vyhledávat obrázky iNaturalist. Označení anotátorů odhalila, kdy modely měly problémy porozumět klíčovým slovům vědců, protože jejich výsledky obsahovaly obrázky dříve označené jako irelevantní pro vyhledávání. Například výsledky VLMs pro „sekvoje s požárními jizvami“ někdy zahrnovaly obrázky stromů bez jakýchkoli značek.
„Toto je pečlivá kurátovaná data zaměřená na zachycení skutečných příkladů vědeckých dotazů napříč výzkumnými oblastmi v ekologii a environmentálních vědách,“ říká Sara Beery, Homer A. Burnell Career Development Assistant Professor na MIT, hlavní investigátorka CSAIL a spoluautorka práce. „Ukázalo se, že je nezbytné rozšířit naše chápání současných schopností VLMs v těchto potenciálně dopadových vědeckých prostředích. Také to nastínilo mezery v současném výzkumu, které nyní můžeme řešit, zejména u komplexních kompozičních dotazů, technické terminologie a jemných, subtilních rozdílů, které vymezují kategorie zájmu pro naše spolupracovníky.“
„Naše zjištění naznačují, že některé modely vidění jsou již dostatečně přesné, aby pomáhaly vědcům zabývajícím se volně žijícími živočichy s vyhledáváním některých obrázků, ale mnoho úkolů je stále příliš obtížných i pro největší a nejlépe fungující modely,“ říká Vendrow. „I když se INQUIRE zaměřuje na ekologii a monitorování biologické rozmanitosti, široká škála jeho dotazů znamená, že VLMs, které dosahují dobrých výsledků na INQUIRE, pravděpodobně budou vynikat v analýze rozsáhlých sbírek obrázků v jiných oblastech, které vyžadují intenzivní pozorování.“
Výzkumníci svůj projekt dále rozvíjejí ve spolupráci s iNaturalist, aby vyvinuli systém dotazů, který lépe pomůže vědcům a dalším zvědavým lidem najít obrázky, které skutečně chtějí vidět. Jejich funkční demo umožňuje uživatelům filtrovat vyhledávání podle druhů, což umožňuje rychlejší objevování relevantních výsledků, například různých barev očí koček. Vendrow a spoluautor Omiros Pantazis, který nedávno získal doktorát z University College London, také usilují o vylepšení systému přeřazování vylepšením současných modelů tak, aby poskytovaly lepší výsledky.
Profesor Justin Kitzes z Univerzity v Pittsburghu zdůrazňuje schopnost INQUIRE odhalovat sekundární data. „Datové sady o biologické rozmanitosti se rychle stávají příliš rozsáhlými na to, aby je mohl prohlížet jakýkoli jednotlivec,“ říká Kitzes, který se na výzkumu nepodílel. „Tento článek upozorňuje na obtížný a nevyřešený problém, kterým je, jak efektivně prohledávat taková data s otázkami, které jdou nad rámec pouhého „kdo je tady“, a místo toho se ptají na individuální vlastnosti, chování a interakce mezi druhy. Schopnost efektivně a přesně odhalovat tyto složitější jevy v datech obrázků biologické rozmanitosti bude klíčová pro základní vědu a dopady na skutečný svět v ekologii a ochraně přírody.“
Vendrow, Pantazis a Beery napsali článek s inženýrem softwaru iNaturalist Alexem Shepardem, profesory University College London Gabrielem Brostowem a Kate Jones, docentem University of Edinburgh a spoluautorem Oisinem Mac Aodhou a asistentem profesora University of Massachusetts at Amherst Grantem Van Hornem, kteří působili jako spoluautoři. Jejich práce byla částečně podporována Generative AI Laboratory na University of Edinburgh, americkou Národní vědeckou nadací/Přirodně vědeckou a inženýrskou výzkumnou radou Kanady Global Center on AI and Biodiversity Change, grantem Royal Society Research a projektem Biome Health financovaným organizací World Wildlife Fund Spojené království.
Související články
Nová START.nano kohorta vyvíjí řešení v oblasti zdraví, ukládání dat, energetiky a udržitelné energie
Čínský elektrický hypercar Yangwang U9 přeskakuje překážky autonomně
Sony překvapivě vstupuje na trh s elektromobily
Sdílet na sociálních sítích:
Komentáře