Společnost Navid se sídlem v Rijádu, divize společnosti Watad, představila Arabic TTS Arena, novou platformu navrženou pro vyhodnocování arabských modelů převodu textu na řeč (TTS) na základě uživatelských preferencí. Tento otevřený žebříček založený na komunitě umožňuje arabsky mluvícím lidem přímo porovnávat hlasy generované umělou inteligencí a hlasovat pro ty, které znějí přirozeněji. Systém hodnotí modely pomocí Bradleyho-Terryho ratingového modelu – stejné metody, jaká se používá k hodnocení šachistů a podporuje žebříček populárních jazykových modelů LMArena – převádí jednotlivé hlasy na statisticky ověřená skóre.
Proč je to důležité: Arabsky mluví více než 400 milionů lidí ve více než 20 zemích, ale vysoce kvalitní TTS je relativně nedávný vývoj. Tradiční hodnocení TTS se opírá o laboratorní testy a algoritmické benchmarky, které často neodrážejí to, co lidé skutečně preferují. Arabic TTS Arena mění tento model tím, že upřednostňuje skutečný zážitek z poslechu. To je zvláště důležité pro arabštinu, která má obrovskou dialektovou rozmanitost, kde je „přirozený zvuk“ vysoce subjektivní.
Klíčové vlastnosti arabské TTS Areny
Platforma, kterou provozuje Hugging Face, v současnosti obsahuje 15 modelů, včetně modelů s otevřeným zdrojovým kódem a komerčních systémů:
- Arabština F5-TTS
- Arabský Spark TTS
- Chatterbox
*Rybí řeč - Habibi TTS
- Hamsa TTS
- Arabština KaniTTS
*Lahgtna - MOSS-TTS
- OuteTTS
- Silma TSS (malý a velký)
- Řeč T5 v arabštině
*XTTS v2
Design Arena zajišťuje nestranné hlasování: ID modelů jsou skryta, dokud není každé srovnání dokončeno, aby se zabránilo tomu, že stávající pověst značky ovlivní výsledky. Přidání nového modelu je jednoduché: vyžaduje se pouze implementace třídy Python.
Mimo kvalitu zvuku: Triangle TTS
Navidův výzkum zdůrazňuje „trojúhelník TTS“, koncept, který říká, že efektivní syntéza řeči musí brát v úvahu tři dimenze: co se říká, kdo to říká a jak se to říká. Většina existujících arabských modelů TTS tvrdí, že plně řeší pouze jeden nebo dva z těchto aspektů.
Tým tvrdí, že omezení rozmanitosti arabských dialektů na široké označení zemí (jako „egyptský“ nebo „saúdský“) nestačí. Dialekty se značně liší i ve městech, díky čemuž jsou specifické identifikátory mluvčích cennější než obecné regionální klasifikace.
Navíc kritizují emocionální štítky (jako „[smích]“ nebo „[smutek]“) jako umělé. Lidské emoce prostupují všemi projevy, než aby se jevily jako izolované značky. Místo toho obhajují pokyny k předávání přirozeného jazyka – podobně jako jsou řízeni hlasoví herci.
Kontext: Rostoucí ambice Saúdské Arábie v oblasti umělé inteligence
Toto spuštění navazuje na předchozí práci mateřské společnosti Navid Watad. V březnu 2024 vydal Watad Mulhem, velký jazykový model specifický pro Saúdskou Arábii trénovaný výhradně na domácích datech. Mulhem překonal srovnatelné modely v počátečních testech, což dokazuje rostoucí investice království do vývoje lokalizované umělé inteligence.
“Pro syntetickou řeč může být standard, který odráží to, co lidé skutečně rádi slyší, zásadně užitečnější než ten, který odráží to, co algoritmus považuje za správné.”
Arabština TTS Arena představuje posun směrem k hodnocení umělé inteligence zaměřené více na člověka, což je trend, který se pravděpodobně rozšíří s tím, jak se jazykové modely vyvíjejí a jsou lokalizovány.
