Podělte se o své znalosti a staňte se lektory! Napište nám a začněte tvořit vlastní online kurzy.

Umělá inteligence se učí napodobovat lidské zvuky

Sdílet na sociálních sítích:
Napsal: Jan Kubice
Umělá inteligence

Nový AI model napodobuje lidské zvuky inspirovaný mechanikou lidského hlasového traktu. Může pomoci vytvořit nová zvuková rozhraní.

Obrázek novinky

Umělá inteligence se učí napodobovat lidské zvuky

Ať už popisujete zvuk vadného motoru vašeho auta, nebo mňoukání sousedovy kočky, napodobování zvuků hlasem může být užitečný způsob, jak sdělit koncept, když slova nestačí.

Napodobování zvuků je zvukový ekvivalent rychlého načrtnutí obrázku k sdělení něčeho, co jste viděli – jen místo použití tužky k ilustraci obrazu používáte svůj hlasový trakt k vyjádření zvuku. To se může zdát obtížné, ale je to něco, co všichni děláme intuitivně: zkuste napodobit zvuk sirény sanitky, vrány nebo zvonu.

Vědci z MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), inspirovaní kognitivní vědou o tom, jak komunikujeme, vyvinuli systém umělé inteligence, který dokáže produkovat lidsky znějící zvukové imitace bez předchozího učení a bez toho, aby kdy předtím „slyšel“ lidskou vokální imitaci.

Aby toho dosáhli, vědci navrhli svůj systém tak, aby produkoval a interpretoval zvuky podobně jako my. Začali vytvořením modelu lidského hlasového traktu, který simuluje, jak jsou vibrace z hlasivek tvarovány krkem, jazykem a rty. Poté použili kognitivně inspirovaný algoritmus AI k řízení tohoto modelu hlasového traktu a k vytváření imitací s ohledem na kontextově specifické způsoby, jakými lidé komunikují zvuk.

Model dokáže efektivně převzít mnoho zvuků ze světa a generovat jejich lidsky znějící imitaci – včetně zvuků jako šustění listí, syčení hada a přibližující se sirény sanitky. Jejich model lze také spustit v opačném směru, aby odhadl zvuky z reálného světa z lidských vokálních imitací, podobně jako některé systémy počítačového vidění dokáží na základě náčrtků získat vysoce kvalitní obrázky. Model například dokáže správně rozlišit zvuk člověka napodobujícího „mňoukání“ kočky od jejího „syčení“.

V budoucnu by tento model mohl potenciálně vést k intuitivnějším „imitačním“ rozhraním pro zvukové designéry, lidsky podobnějším postavám AI ve virtuální realitě a dokonce i k metodám, které pomohou studentům učit se nové jazyky.

Spoluautoři – doktorandi MIT CSAIL Kartik Chandra SM '23 a Karima Ma a výzkumný pracovník Matthew Caren – poznamenávají, že výzkumníci v oblasti počítačové grafiky již dlouho uznávají, že realismus není zřídkakdy konečným cílem vizuálního vyjádření. Například abstraktní malba nebo dětský křidlový výkres mohou být stejně výmluvné jako fotografie.

„V posledních několika desetiletích vedly pokroky v algoritmech skicování k novým nástrojům pro umělce, pokrokům v oblasti AI a počítačového vidění a dokonce i k hlubšímu pochopení lidské kognitivní funkce,“ poznamenává Chandra. „Stejně jako je náčrtek abstraktní, nefotorealistická reprezentace obrazu, naše metoda zachycuje abstraktní, nefono-realistické způsoby, jak lidé vyjadřují zvuky, které slyší. To nás učí o procesu sluchové abstrakce.“

Umění imitace ve třech částech

Tým vyvinul tři stále nuanceované verze modelu pro porovnání s lidskými vokálními imitacemi. Nejprve vytvořili základní model, který se jednoduše zaměřil na generování imitací, které byly co nejpodobnější skutečným zvukům – ale tento model neodpovídal lidskému chování příliš dobře.

Vědci poté navrhli druhý „komunikativní“ model. Podle Carena tento model zvažuje, co je pro posluchače na zvuku zvláštní. Například by pravděpodobně napodobili zvuk motorového člunu napodobováním dunění jeho motoru, protože to je jeho nejvýraznější zvuková vlastnost, i když to není nejhlasitější aspekt zvuku (ve srovnání například s cákající vodou). Tento druhý model vytvořil imitace, které byly lepší než základní, ale tým se chtěl ještě zlepšit.

Aby posunuli svou metodu dále, vědci přidali do modelu finální vrstvu uvažování. „Vokální imitace mohou znít různě v závislosti na tom, kolik úsilí do nich vložíte. Vytváření dokonale přesných zvuků stojí čas a energii,“ říká Chandra. Úplný model výzkumníků to zohledňuje tak, že se snaží vyhnout výrokům, které jsou příliš rychlé, hlasité nebo vysoké, či nízké, které lidé v konverzaci používají méně často. Výsledek: lidsky znějící imitace, které se velmi podobají mnoha rozhodnutím, která lidé dělají při napodobování stejných zvuků.

Poté, co tento model postavili, tým provedl behaviorální experiment, aby zjistil, zda lidské soudci vnímali vokální imitace generované AI nebo člověkem jako lepší. Pozoruhodně, účastníci experimentu upřednostňovali model AI v 25 % případů obecně a až 75 % pro imitaci motorového člunu a 50 % pro imitaci výstřelu.

Směrem k expresivnější zvukové technologii

Caren, vášnivý pro technologie pro hudbu a umění, si představuje, že tento model by mohl umělcům pomoci lépe komunikovat zvuky s výpočetními systémy a pomáhat filmařům a dalším tvůrcům obsahu s generováním zvuků AI, které jsou nuanceji přizpůsobeny konkrétnímu kontextu. Mohlo by to také umožnit hudebníkovi rychle vyhledat zvukovou databázi napodobováním hluku, který je obtížné popsat například v textovém promptu.

Mezitím Caren, Chandra a Ma zkoumají důsledky svého modelu v jiných oblastech, včetně vývoje jazyka, toho, jak se děti učí mluvit, a dokonce i imitačního chování u ptáků, jako jsou papoušci a pěvci.

Tým má s aktuální iterací svého modelu stále co dělat: má potíže s některými souhláskami, jako je „z“, což vedlo k nepřesným dojmům některých zvuků, jako je bzučení včel. Zatím také nedokáží replikovat, jak lidé napodobují řeč, hudbu ani zvuky, které se v různých jazycích napodobují různě, například tlukot srdce.

Profesor lingvistiky na Stanfordské univerzitě Robert Hawkins říká, že jazyk je plný onomatopoeie a slov, která napodobují, ale ne zcela replikují věci, které popisují, jako zvuk „mňau“, který velmi nepřesně aproximuje zvuk, který kočky vydávají. „Procesy, které nás dostanou od skutečného zvuku kočky ke slovu jako ‚mňau‘, odhalují mnoho o složité interakci mezi fyziologií, sociálním uvažováním a komunikací ve vývoji jazyka,“ říká Hawkins, který se na výzkumu CSAIL nepodílel. „Tento model představuje vzrušující krok k formalizaci a testování teorií těchto procesů, což dokazuje, že k vysvětlení distribuce vokálních imitací jsou potřebná jak fyzická omezení lidského hlasového traktu, tak sociální tlaky z komunikace.“

Caren, Chandra a Ma napsali článek se dvěma dalšími přidruženými pracovníky CSAIL: Jonathanem Ragan-Kelleym, docentem MIT na fakultě elektrotechniky a informatiky, a Joshuou Tenenbaumem, profesorem mozkových a kognitivních věd MIT a členem Centra pro mozky, mysli a stroje. Jejich práce byla zčásti podporována nadací Hertz Foundation a Národním vědeckým fondem. Byla představena na SIGGRAPH Asia na začátku prosince.

Související články

Sdílet na sociálních sítích:

Komentáře

Zatím žádné komentáře. Buďte první, kdo napíše svůj názor!