додому Nejnovější zprávy a články Saudi Company uvádí arabské hodnocení TTS založené na hodnocení uživatelů

Nejnovější zprávy a články

Saudi Company uvádí arabské hodnocení TTS založené na hodnocení uživatelů

25.03.2026

20

Saudi Company uvádí arabské hodnocení TTS založené na hodnocení uživatelů

Společnost Navid se sídlem v Rijádu, divize společnosti Watad, představila Arabic TTS Arena, novou platformu navrženou pro vyhodnocování arabských modelů převodu textu na řeč (TTS) na základě uživatelských preferencí. Tento otevřený žebříček založený na komunitě umožňuje arabsky mluvícím lidem přímo porovnávat hlasy generované umělou inteligencí a hlasovat pro ty, které znějí přirozeněji. Systém hodnotí modely pomocí Bradleyho-Terryho ratingového modelu – stejné metody, jaká se používá k hodnocení šachistů a podporuje žebříček populárních jazykových modelů LMArena – převádí jednotlivé hlasy na statisticky ověřená skóre.

Proč je to důležité: Arabsky mluví více než 400 milionů lidí ve více než 20 zemích, ale vysoce kvalitní TTS je relativně nedávný vývoj. Tradiční hodnocení TTS se opírá o laboratorní testy a algoritmické benchmarky, které často neodrážejí to, co lidé skutečně preferují. Arabic TTS Arena mění tento model tím, že upřednostňuje skutečný zážitek z poslechu. To je zvláště důležité pro arabštinu, která má obrovskou dialektovou rozmanitost, kde je „přirozený zvuk“ vysoce subjektivní.

Klíčové vlastnosti arabské TTS Areny

Platforma, kterou provozuje Hugging Face, v současnosti obsahuje 15 modelů, včetně modelů s otevřeným zdrojovým kódem a komerčních systémů:

Arabština F5-TTS
Arabský Spark TTS
Chatterbox
*Rybí řeč
Habibi TTS
Hamsa TTS
Arabština KaniTTS
*Lahgtna
MOSS-TTS
OuteTTS
Silma TSS (malý a velký)
Řeč T5 v arabštině
*XTTS v2

Design Arena zajišťuje nestranné hlasování: ID modelů jsou skryta, dokud není každé srovnání dokončeno, aby se zabránilo tomu, že stávající pověst značky ovlivní výsledky. Přidání nového modelu je jednoduché: vyžaduje se pouze implementace třídy Python.

Mimo kvalitu zvuku: Triangle TTS

Navidův výzkum zdůrazňuje „trojúhelník TTS“, koncept, který říká, že efektivní syntéza řeči musí brát v úvahu tři dimenze: co se říká, kdo to říká a jak se to říká. Většina existujících arabských modelů TTS tvrdí, že plně řeší pouze jeden nebo dva z těchto aspektů.

Tým tvrdí, že omezení rozmanitosti arabských dialektů na široké označení zemí (jako „egyptský“ nebo „saúdský“) nestačí. Dialekty se značně liší i ve městech, díky čemuž jsou specifické identifikátory mluvčích cennější než obecné regionální klasifikace.

Navíc kritizují emocionální štítky (jako „[smích]“ nebo „[smutek]“) jako umělé. Lidské emoce prostupují všemi projevy, než aby se jevily jako izolované značky. Místo toho obhajují pokyny k předávání přirozeného jazyka – podobně jako jsou řízeni hlasoví herci.

Kontext: Rostoucí ambice Saúdské Arábie v oblasti umělé inteligence

Toto spuštění navazuje na předchozí práci mateřské společnosti Navid Watad. V březnu 2024 vydal Watad Mulhem, velký jazykový model specifický pro Saúdskou Arábii trénovaný výhradně na domácích datech. Mulhem překonal srovnatelné modely v počátečních testech, což dokazuje rostoucí investice království do vývoje lokalizované umělé inteligence.

“Pro syntetickou řeč může být standard, který odráží to, co lidé skutečně rádi slyší, zásadně užitečnější než ten, který odráží to, co algoritmus považuje za správné.”

Arabština TTS Arena představuje posun směrem k hodnocení umělé inteligence zaměřené více na člověka, což je trend, který se pravděpodobně rozšíří s tím, jak se jazykové modely vyvíjejí a jsou lokalizovány.

Exit mobile version