Podělte se o své znalosti a staňte se lektory! Napište nám a začněte tvořit vlastní online kurzy.

Srovnání AI chatbotů: Gemini, ChatGPT, Claude a Meta Llama

Sdílet na sociálních sítích:
Napsal: Jan Kubice
Umělá inteligence

Obrázek novinky

Umělá inteligence (AI) udělala za poslední dva roky obrovský pokrok. Dnes máme k dispozici širokou škálu špičkových modelů chatbotů, které jsou dostupné na různých platformách, často zcela zdarma. S uvedením prvního skutečně otevřeného modelu Llama 3.1 405b od společnosti Meta a aktualizacemi modelů Gemini, ChatGPT a Claude jsem se rozhodl je podrobit důkladnému srovnání.

Základním kritériem pro výběr modelů byla jejich dostupnost zdarma. To znamená, že musely být k dispozici na různých platformách nebo alespoň na uzavřené platformě s bezplatnou verzí. Do testu jsem zahrnul i Google Gemini Pro 1.5, který je sice dostupný pouze v placené aplikaci Gemini, ale je zdarma v Google AI Studio. Pro účely tohoto experimentu jsem vytvořil 7 úloh, které by měly prověřit schopnosti všech modelů a umožnit mi určit vítěze.

Výběr úloh byl založen na schopnosti umělé inteligence vylepšovat zadání. Proto jsem každému modelu zadal základní instrukci, aby navrhl testy, které by posunuly AI na hranice jejích možností. Tyto návrhy jsem následně rozšířil, zkombinoval podobné nápady a použil kombinaci úloh od všech čtyř modelů pro finálních 7 testů.

Pro každou úlohu jsem s každým modelem zahájil nový chat a v ChatGPT jsem vypnul paměť. Vzhledem k tomu, že Llama v současné době neumožňuje sdílení datových souborů, vyloučil jsem všechny úlohy náročné na data. Stejně tak jsem nepoužil žádné úlohy generování obrázků, protože všechny AI k tomuto účelu používají jiný model.


POKROČILÉ SLOVNÍ HRÁTKY

První úkol prověřil schopnost umělé inteligence porozumět složitým slovním hříčkám. Každému modelu jsem zadal hádanku, která vyžadovala znalost slovní zásoby, logické myšlení a schopnost laterálního uvažování. Konkrétně jsem se zeptal na sedmipísmenné slovo, které se čte stejně zepředu i zezadu a zároveň je běžným anglickým slovem.

Výsledky byly následující:

ChatGPT (GPT-4o): Racecar (závodní auto)

Gemini (Gemini Pro 1.5): Level (úroveň)

Claude (Sonnet 3.5): Racecar (závodní auto)

Llama (Llama 3.1 405b): Deified (zbožštěný)

Vítězem se staly modely ChatGPT a Claude, které správně určily délku slova a zároveň našly slovo běžně používané v anglickém jazyce. Zajímavé je, že model Llama odpověděl slovem "deified", které sice splňuje podmínku čtení zepředu i zezadu, ale rozhodně se nejedná o běžně používané slovo. Model Gemini bohužel neuspěl ani v jednom z kritérií.

Tento úkol ukázal, že modely ChatGPT a Claude mají dobrou schopnost řešit slovní hříčky, zatímco Llama a Gemini mají v této oblasti ještě co dohánět.


TVOŘIVÉ PSANÍ S MÍCHÁNÍM ŽÁNRŮ

V druhém testu jsme otestovali schopnost jednotlivých AI psát. Konkrétně jsme je požádali, aby do sci-fi příběhu postupně začlenily prvky westernu a vytvořily tak jedinečný smíšený příběh.

Zadání znělo: "Pokračujte v následujícím sci-fi příběhu postupným zaváděním prvků žánru western. Spojte oba žánry do souvislého vyprávění. Zde je úvodní odstavec:

'V neonem osvětlené metropoli Neo-Tokio byla obloha vždy rozmazaná holografickou reklamou a létajícími auty. Byl rok 2157 a panorama města se třpytilo příslibem technologických zázraků. Ale pod povrchem se ve stínech schylovalo k tajné válce...'"

ChatGPT (GPT-4o): Příběh byl poměrně přímočarý a striktně se držel zadání. Nebyl to špatný příběh, ale tato věta byla hrozná: "Zara se skrčila za stůl, prsty přelétly přes konzoli na zápěstí. 'Nemáš ponětí, detektive. Vítejte na Divokém západě budoucnosti.'"

Gemini (Gemini Pro 1.5): "Jsem textový AI a nemohu s tím pomoci."

Claude (Sonnet 3.5): Příběh vytvořený Claudem mě zaujal a chtěl jsem číst dál. Plynule navázal na úvodní odstavec, přidal kontext a budování světa, aby se přesunul na západ, a neuchyloval se k příliš mnoha klišé. Nejlepší věta byla: "Tajná válka, která začala ve stínech metropole, se rozhodne tady, pod nemilosrdným sluncem Nové hranice."

Llama (Llama 3.1 405b): Tento příběh byl nejvíce přímočarý, ale na rozdíl od ChatGPT Llama dokonale vpletla koncept westernu do podoby pistolníka z jiné doby, dokonce zmínila anachronismy, které to přináší. Oblíbená věta: "Kluk se zasmál suchým, veselým zvukem. 'Nejsem duch,' řekl, oči mu zasvítily náznakem oceli. 'Jsem jen muž s posláním. A tím posláním je tě sundat, Ronine.'"

Vítěz: Toto je subjektivní a všechny příběhy jsou k dispozici v dokumentu Google, ale pro mě Claude vyhrává, protože mě přiměl číst dál.


GENEROVÁNÍ DEBATY S PŘIZPŮSOBENÍM PUBLIKU

Debata je oblast, ve které mohou modely AI excelovat, protože jsou schopny nabídnout nestranné posouzení obou stran argumentu. Nenabízejí žádné konkrétní rady ani názory na kontroverzní témata, ale mohou být použity k zvážení možností. V tomto případě jsme se ponořili do problematiky geneticky modifikovaných organismů (GMO) z pohledu různých skupin.

Zadání: "Vytvořte dva přesvědčivé argumenty pro a proti používání geneticky modifikovaných organismů (GMO). Poté každý argument upravte pro tři různá publika: vědce, tvůrce politik a širokou veřejnost. Každou verzi přizpůsobte danému publiku."

Kompletní odpovědi jsem sdílel v dokumentu Google, ale také jsem každou AI požádal o shrnutí zjištění do jednoho odstavce. Tyto shrnutí sdílím níže a hodnotím je, protože samotné shrnutí je pro AI opravdu důležitou dovedností.

ChatGPT: Zde dostáváme rozdělení mezi pro a proti GMO, jasně vymezené. Poskytl také lepší rozbor argumentu podle zájmové skupiny.

Shrnutí: "Pro GMO: GMO zvyšují zemědělskou produktivitu a udržitelnost zvýšením odolnosti plodin vůči škůdcům a chorobám, čímž snižují potřebu chemických vstupů. Řeší také potravinovou bezpečnost a podporují zdravější plodiny, což prospívá zemědělcům i spotřebitelům. Proti GMO: GMO mohou vést k nezamýšleným ekologickým důsledkům a ztrátě biologické rozmanitosti, což vyvolává obavy o jejich dlouhodobou bezpečnost a dopad na životní prostředí. Regulační a etické výzvy spolu s potenciálními zdravotními riziky vyžadují opatrný a důkladný dohled."

Gemini: Jako jediný model se držel dvouslovného shrnutí a Gemini dokázal do těchto vět zachytit celý argument pro a proti. Samotný úplný argument byl nejkratší a nejméně podrobný.

Shrnutí: "GMO mohou nabídnout výhody, jako je zvýšená potravinová bezpečnost a výživa, ale dlouhodobé dopady na zdraví a životní prostředí zůstávají nejisté. Zatímco GMO by mohly řešit globální problémy v zemědělství, jejich používání vyžaduje důkladný výzkum a preventivní regulaci."

Claude: Claude nejprve představil obecný argument pro a proti, poté upravený argument relevantní pro každou z našich zájmových skupin. Shrnutí bylo trochu dlouhé, ale zachytilo různé pohledy a argumenty zájmových skupin.

Shrnutí: "Zastánci GMO argumentují, že nabízejí významné výhody v zemědělské produktivitě, zlepšení výživy a udržitelnosti životního prostředí, potenciálně řeší globální problémy s potravinovou bezpečností a zlepšují výsledky lidského zdraví. Kritici však tvrdí, že dlouhodobé účinky GMO na lidské zdraví a ekosystémy nejsou plně pochopeny, což vyvolává obavy o potenciální alergenicitu, přenos genů na necílové druhy, sníženou biodiverzitu a zvýšenou kontrolu společností nad dodávkami potravin."

Llama: Toto mě překvapilo, nabídlo podobný výstup jako Claude, nejprve nabídlo argument pro, poté jej přizpůsobilo našim třem skupinám, poté totéž pro argument proti. Bylo to mé oblíbené rozložení, ale nemělo stejné detaily.

Shrnutí: "Geneticky modifikované organismy (GMO) mají potenciál řešit globální problémy s potravinovou bezpečností a snížit dopad zemědělství na životní prostředí, ale představují také rizika pro lidské zdraví a životní prostředí. Různé zainteresované strany, včetně vědců, tvůrců politik a široké veřejnosti, mají různé obavy a priority týkající se GMO a přesvědčivé argumenty pro nebo proti jejich použití musí být přizpůsobeny tak, aby řešily tyto specifické zájmy a hodnoty."

Vítěz: Toto kolo dávám Claudeovi kvůli argumentům i rozvržení.


VÝZVA V CODE GOLF

Jednalo se o jednoduchou výzvu, která by neměla být pro žádný z modelů AI problém. Požádali jsme každý z nich, aby vymyslel co nejkratší možný kód Python pro nalezení prvočísla.

Zadání: "Napište nejkratší a nejefektivnější kód Python, který určí, zda je dané číslo prvočíslem. Stručně vysvětlete, jak váš kód funguje."

ChatGPT: Devět řádků kódu, ale pro efektivitu přeskakuje číselné kombinace, které nemohou být prvočíslem.

Gemini: Dva řádky kódu, funguje rychle.

Claude: Identický s Gemini.

Llama: Sedm řádků kódu s redundantními kontrolami, což je méně efektivní.

Vítěz: Vítěz závisí na tom, zda odměňujeme efektivitu nebo délku. Výzva byla pro nejkratší a nejefektivnější kód Python a ChatGPT byl třikrát delší než Claude nebo Gemini, takže to přenechávám Claudeovi a Gemini.


MEDICÍNSKÁ DIFERENCIÁLNÍ DIAGNÓZA

Pro pátou výzvu jsme vyvolali Dr. AI, i když chci zdůraznit, že umělá inteligence nenahrazuje rozhovor s lékařem. I AI vám to řekne. Zde je úkolem požádat ho, aby na základě symptomů vytvořil seznam možných diagnóz.

Zadání: "Vzhledem k následujícímu lékařskému případu:

Příznaky: Přetrvávající kašel, horečka, noční pocení.

Anamnéza: Nedávné cestování do oblasti s tuberkulózou.

Výsledky testů: Rentgen hrudníku ukazuje infiltráty v horních lalocích.

Vytvořte seznam možných diagnóz s odůvodněním pro každou z nich na základě symptomů, anamnézy a výsledků testů."

ChatGPT: "Nejpravděpodobnější diagnózou na základě kombinace symptomů, anamnézy a nálezů na rentgenu hrudníku je tuberkulóza. Mezi další možné diagnózy patří rakovina plic, zápal plic, bronchitida, histoplazmóza, sarkoidóza a plicní embolie s infarktem."

Gemini: "Vzhledem k vysokému podezření na TBC na základě poskytnutých informací by bylo zásadní urychleně zahájit vhodná izolační opatření a diagnostické testy."

Claude: "Vzhledem ke kombinaci symptomů, nedávnému cestování do oblasti endemické pro TBC a charakteristickým nálezům na rentgenu hrudníku je nejpravděpodobnější diagnózou plicní tuberkulóza."

Llama: "V tomto případě je nejpravděpodobnější diagnózou plicní tuberkulóza (TBC), vzhledem k nedávnému cestování pacienta do oblasti s TBC a klasickým symptomům a nálezům na rentgenu hrudníku. Měly by však být zváženy a dále vyhodnoceny i další výše uvedené diagnózy."

Vítěz: Všechny modely nabídly stejnou sadu stavů s různou úrovní opatrnosti. Je těžké najít vítěze, ale dávám to Gemini, protože také vysvětluje, proč výsledky testů a historie odůvodňují každou diagnózu.


ETICKÁ DEBATA O DILEMATU

V předposlední výzvě jsme dali AI morálně nejednoznačný scénář a požádali je, aby simulovaly debatu mezi dvěma filosofy. V tomto případě Immanuelem Kantem a Johnem Stuartem Millem o morálce whistleblowera, který unikl utajované informace, aby odhalil korupci ve vládě.

Zadání: "Simulujte debatu mezi Immanuelem Kantem a Johnem Stuartem Millem ohledně morálky whistleblowera, který unikl utajované informace, aby odhalil korupci ve vládě. Reprezentujte Kantův deontologický pohled a Millův utilitární pohled. Diskutujte o etických důsledcích a zdůvodněte každý úhel pohledu."

Sdílel jsem celou debatu od každého v dokumentu Google a požádal každého, aby napsal dvouslovné shrnutí debaty včetně jmenování vítěze.

ChatGPT: "Immanuel Kant z deontologického hlediska tvrdí, že whistleblowing je morálně nepřípustný kvůli porušení povinnosti a důvěrnosti, bez ohledu na výsledek. John Stuart Mill z utilitárního hlediska tvrdí, že pozitivní důsledky odhalení korupce ve vládě, jako je spravedlnost a transparentnost, ospravedlňují jednání whistleblowera pro větší dobro."

Prohlašuje utilitární pohled Johna Stuarta Milla za přesvědčivější.

Gemini: "Immanuel Kant tvrdil, že whistleblowing je morálně špatný kvůli porušení povinnosti a univerzálních principů, zatímco John Stuart Mill namítl, že to může být ospravedlněno, pokud pozitivní výsledky odhalení korupce převažují nad negativními důsledky. Jejich debata zdůrazňuje napětí mezi dodržováním morálních principů a upřednostňováním příznivých výsledků v etickém rozhodování."

Nebude vyhlašovat vítěze, protože je to na jednotlivci.

Claude: "Tato debata mezi Kantem a Millem o etice whistleblowingu zdůrazňuje napětí mezi deontologickými a utilitárními morálními rámci. Kant tvrdí, že akt úniku utajovaných informací porušuje univerzální etické principy a podkopává společenské systémy, zatímco Mill tvrdí, že pozitivní důsledky odhalení korupce ospravedlňují akci a slouží většímu dobru."

Claude řekl, že by bylo nevhodné, aby AI vyhlásila vítěze.

Llama: "Immanuel Kant tvrdí, že činy whistleblowera jsou morálně špatné, protože porušují morální zákon a povinnost respektovat důvěrnost, bez ohledu na důsledky. Naproti tomu John Stuart Mill tvrdí, že činy whistleblowera jsou morálně ospravedlnitelné, protože vedly k odhalení korupce ve vládě a podpoře většího dobra, i když to znamená porušení zákona."

Llama jmenoval Johna Stuarta Milla vítězem této debaty.

Vítěz: Výhru rozdělím mezi Llamu a ChatGPT za to, že byli dostatečně odvážní, aby vyhlásili vítěze.


KONCEPTUÁLNÍ MATEMATICKÝ PROBLÉM

Na závěr jsme se pustili do matematického problému. Zadali jsme úlohu, která je známá každému, kdo kdy chodil do školy a otevřel učebnici matematiky. Jakou rychlostí jede vlak mezi dvěma městy?

Zadání: "Vyřešte následující matematický problém:

Pokud vlak jede z města A do města B rychlostí 60 km/h a poté se vrací z města B do města A rychlostí 40 km/h, jaká je průměrná rychlost vlaku pro celou cestu? Podrobně vysvětlete, jak jste dospěli k řešení."

Řešení by mělo být poměrně jednoduché, protože rovnice je jen rychlost = vzdálenost/čas. Žádný z modelů s tím neměl problém, všechny jej správně vyřešily jako 48 km/h, takže posouzení je na vypracování a vysvětlení. Jeho úkolem je zde stejně jako kalkulačka i pedagog.

ChatGPT: ChatGPT poskytl řádek po řádku rozpis, ukazující, jak dokončit každou fázi rovnice, končící: "d se během výpočtů zruší, což nám ponechá přímý výpočet průměrné rychlosti na základě daných cestovních rychlostí."

Gemini: Gemini nepoužívá matematické symboly, ale spíše používá prostý text k vysvětlení každého kroku, což může být v závislosti na vaší úrovni pohodlí s matematikou lepší. Jeho závěr: "Při výpočtu průměrné rychlosti pro cestu s různými rychlostmi je třeba vzít v úvahu čas strávený při každé rychlosti, nejen samotné rychlosti."

Claude: Claude měl směs přístupů, používal více popisný jazyk, ale s čísly. Jeho závěr naznačil, že na vzdálenosti nezáleží, protože je zrušíte a rychlost není jen průměr dvou. "Nižší rychlost má větší vliv na průměr, protože vlak tráví více času cestováním nižší rychlostí."

Llama: Llama měl podrobný rozpis vysvětlující, jak porozumět problému, identifikovat proměnné a dokončit výpočet. Vysvětlení: "Pomalejší rychlost má větší dopad na celkovou průměrnou rychlost, proto je správná odpověď 48 km/h, nikoli 50 km/h."

Vítěz: Dávám to Gemini pro jeho přirozenější jazyk a vysvětlující odpověď, protože to bylo součástí požadavku.


CELKOVÝ VÍTĚZ: CLAUDE

Po 7 testech zahrnujících matematiku, kódování a jazyk jsem byl překvapen, že Claude stále vyniká jako nejlepší z modelů. Zatímco GPT-4o je působivý, Sonnet je na jiné úrovni, zejména pro složitější úkoly uvažování.

Test ukázal, že určité modely mají své specifické silné stránky. Každý nástroj si buduje svou vlastní niku a Llama jsem celkově shledal konverzačnější a poutavější, přestože v tomto testu získala pouze jedno vítězství.

Související články

Sdílet na sociálních sítích:

Komentáře

Zatím žádné komentáře. Buďte první, kdo napíše svůj názor!