Tým Qwen společnosti Alibaba Cloud představil Qwen2-Math, sérii velkých jazykových modelů (LLM) specificky navržených pro řešení složitých matematických problémů. Tyto nové modely, postavené na stávajícím základu Qwen2, prokazují pozoruhodnou schopnost řešit aritmetické a matematické výzvy a překonávají předchozí lídry v oboru.
Tým Qwen vytvořil Qwen2-Math s využitím rozsáhlého a rozmanitého matematicky specifického korpusu. Tento korpus zahrnuje bohatou škálu vysoce kvalitních zdrojů, včetně webových textů, knih, kódu, zkušebních otázek a syntetických dat generovaných samotným Qwen2.
Přísné hodnocení na anglických i čínských matematických benchmarcích – včetně GSM8K, Math, MMLU-STEM, CMATH a GaoKao Math – odhalilo výjimečné schopnosti Qwen2-Math. Zejména vlajkový model, Qwen2-Math-72B-Instruct, překonal výkon proprietárních modelů, jako jsou GPT-4o a Claude 3.5, v různých matematických úlohách.
"Qwen2-Math-Instruct dosahuje nejlepšího výkonu mezi modely stejné velikosti, přičemž RM@8 překonává Maj@8, zejména u modelů 1.5B a 7B," poznamenal tým Qwen. Tento vynikající výkon je přičítán efektivní implementaci matematicky specifického modelu odměn během vývojového procesu.
Qwen2-Math dále předvedl své schopnosti působivými výsledky v náročných matematických soutěžích, jako je American Invitational Mathematics Examination (AIME) 2024 a American Mathematics Contest (AMC) 2023.
Aby byla zajištěna integrita modelu a zabráněno kontaminaci, tým Qwen implementoval robustní metody dekontaminace během pre-tréninkové i post-tréninkové fáze. Tento přísný přístup zahrnoval odstranění duplicitních vzorků a identifikaci překryvů s testovacími sadami, aby byla zachována přesnost a spolehlivost modelu.
Do budoucna tým Qwen plánuje rozšířit schopnosti Qwen2-Math i za hranice angličtiny, přičemž v plánu jsou dvojjazyčné a vícejazyčné modely. Tento závazek k inkluzivitě si klade za cíl zpřístupnit pokročilé řešení matematických problémů globálnímu publiku.
"Budeme pokračovat ve zlepšování schopnosti našich modelů řešit složité a náročné matematické problémy," potvrdil tým Qwen.
Modely Qwen2 najdete na Hugging Face.
Související články
Šéfové technologických firem chválí Trumpův projekt umělé inteligence
Umělá inteligence změní váš trénink: Novinky ze světa fitness technologií a AI
Otázky a odpovědi: Dopad generativní AI na klima
Sdílet na sociálních sítích:
Komentáře