Společnost Samsung nedávno zveřejnila zajímavý článek, ve kterém vysvětluje, co obnáší naučit jejich Galaxy AI nový jazyk. Tato otázka je klíčová, protože umělá inteligence hluboce integrovaná do mobilního operačního systému se snáze dostane k uživatelům a může jim nabízet pomoc "na každém druhém kroku".
Proč je lokalizace AI tak složitá?
Každý jazyk má svou jedinečnou strukturu, variace a kulturní kontext, což představuje pro vývojáře AI značné výzvy. Samsung má k řešení těchto úkolů osm vývojových center po celém světě, od Brazílie po Vietnam.
Například vietnamština má šest různých tónů, což způsobovalo automatickým systémům problémy při převodu mluveného slova na text. Řešením bylo snížení "rozlišení" zvuku na segmenty o délce 20 milisekund, což však vyžadovalo zvýšení výpočetního výkonu.
Polské vývojové centrum se zase potýkalo se značnou variabilitou evropských jazyků a ustálenými frázemi, jejichž doslovný překlad nevede k uspokojivému výsledku. Vývojáři museli přistupovat k překladu fráze po frázi a vysvětlovat jejich skutečný význam.
Arabština má 30 základních dialektů, z nichž mnohé nejsou přesně kodifikované. Řešením jsou algoritmy, které v psaném textu předpovídají chybějící diakritiku, takže systém nakonec s dostatečnou přesností rozumí i těm nejsložitějším dialektům a odpovídá ve standardní arabštině.
U velkých jazyků, jako je hindština, mandarínská a kantonská čínština nebo španělština, jsou klíčová data, na kterých se AI může učit. Samsung využil existujících databází a spolupracoval s místními technologickými giganty, jako jsou Baidu a Meitu v Číně.
V Indonésii, kde pokročilé jazykové modely chyběly, museli vývojáři začít od úplných základů. Nahrávali rozhovory běžných lidí v kavárnách a kancelářích, aby zachytili specifika jazyka, který pracuje s kontextem a konkrétní situací.
Japonština má omezený počet samohlásek, což vede k vysokému počtu homonym - slov, která mají stejnou podobu, ale odlišný význam. Řešení je stejné jako u lidí - záleží na kontextu. Lidé se to učí roky, AI to musí zvládnout rychleji.
Smutná pravda o češtině
Ačkoli se článek konkrétně češtinou nezabývá, odpověď je jasná. Čeština je prozatím příliš malý jazyk, přestože výzvy pro vývojáře jsou srovnatelné s velkými jazyky. Česko má pro Samsung nízkou prioritu a v plánech firmy zatím nefiguruje.
Závěr
Lokalizace AI je složitý a časově náročný proces, který vyžaduje nejen technologické znalosti, ale i hluboké porozumění jazyku a kultuře. I když se zdá, že umělá inteligence by mohla tento proces urychlit a zautomatizovat, realita je taková, že každý jazyk představuje unikátní výzvu. Pro menší jazyky, jako je čeština, je situace ještě složitější, protože jejich podpora vyžaduje značné investice s nejistou návratností. Přestože se čeští uživatelé zatím nedočkají plnohodnotné podpory Galaxy AI v češtině, pokroky v oblasti strojového učení a rostoucí zájem o jazykové technologie dávají naději, že se situace v budoucnu může změnit.
Související články
Šéfové technologických firem chválí Trumpův projekt umělé inteligence
Umělá inteligence změní váš trénink: Novinky ze světa fitness technologií a AI
Otázky a odpovědi: Dopad generativní AI na klima
Sdílet na sociálních sítích:
Komentáře