Une société saoudienne d’IA lance un classement TTS arabe piloté par la communauté

11

Une entreprise saoudienne lance un classement communautaire de synthèse vocale en arabe

Navid, une société d’IA basée à Riyad, une division de Watad, a présenté Arabic TTS Arena, une nouvelle plate-forme conçue pour évaluer les modèles de synthèse vocale (TTS) en arabe en fonction des préférences humaines. Ce classement ouvert et communautaire permet aux locuteurs natifs arabes de comparer directement les voix générées par l’IA, et de voter pour laquelle semble plus naturelle. Le système classe les modèles à l’aide du modèle de notation Bradley-Terry (la même méthode utilisée pour classer les joueurs d’échecs et alimenter le populaire classement du modèle de langage LMArena), transformant les votes individuels en scores statistiquement étayés.

Pourquoi c’est important : L’arabe est parlé par plus de 400 millions de personnes dans plus de 20 pays, mais la TTS de haute qualité reste un développement récent. L’évaluation TTS traditionnelle s’appuie sur des tests en laboratoire et des références algorithmiques, qui ne parviennent souvent pas à capturer ce que les gens préfèrent réellement. L’arabe TTS Arena renverse ce modèle, en donnant la priorité à l’expérience d’écoute du monde réel. Ceci est particulièrement crucial pour l’arabe, une langue avec d’immenses variations dialectales où « paraître naturel » est hautement subjectif.

Principales caractéristiques de l’arabe TTS Arena

La plateforme, hébergée sur Hugging Face, classe actuellement 15 modèles, comprenant à la fois des systèmes open source et commerciaux :

  • Arabe F5-TTS
  • Arabe Spark TTS
  • Bavard
  • Discours de poisson
  • Habibi TTS
  • Hamsa TTS
  • KaniTTS arabe
  • Lahgtna
  • MOUSSE-TTS
  • SortieTTS
  • Silma TSS (petit et grand)
  • SpeechT5 arabe
    *XTTSv2

La conception de l’Arena garantit un vote impartial : les identités des modèles sont masquées jusqu’à la fin de chaque comparaison, empêchant ainsi la réputation préexistante de la marque d’influencer les résultats. L’ajout d’un nouveau modèle est simple et ne nécessite qu’une implémentation de classe Python.

Au-delà de la qualité sonore : le triangle TTS

Les recherches de Navid mettent en évidence le « Triangle TTS », un cadre selon lequel une synthèse vocale efficace doit aborder trois dimensions : ce qui est dit, qui le dit et comment cela est prononcé. La plupart des modèles TTS arabes existants, affirment-ils, ne répondent pleinement qu’à un ou deux d’entre eux.

L’équipe soutient que réduire la diversité dialectale de l’arabe à de larges étiquettes au niveau national (par exemple, « égyptien » ou « saoudien ») est inadéquat. Les dialectes varient considérablement, même au sein des villes, ce qui rend les identités de locuteurs de référence spécifiques plus précieuses que les classifications régionales génériques.

De plus, ils critiquent les tags d’émotion (comme « [rire] » ou « [triste] ») comme étant artificiels. L’émotion humaine imprègne des énoncés entiers, plutôt que d’apparaître comme des marqueurs isolés. Au lieu de cela, ils préconisent des instructions de transmission en langage naturel, similaires à la manière dont les acteurs vocaux sont dirigés.

Contexte : les ambitions croissantes de l’Arabie saoudite en matière d’IA

Ce lancement s’appuie sur les travaux antérieurs de Watad, la société mère de Navid. En mars 2024, Watad a publié Mulhem, un grand modèle linguistique spécifique à l’Arabie saoudite, entièrement formé sur des données nationales. Mulhem a surpassé les modèles comparables lors des premiers tests, démontrant l’investissement croissant du Royaume dans le développement localisé de l’IA.

“Pour la parole synthétique, une référence qui reflète ce que les sons que les gens préfèrent réellement entendre pourrait être fondamentalement plus utile qu’une référence qui reflète ce qu’un algorithme considère comme correct.”

L’arabe TTS Arena représente une évolution vers une évaluation de l’IA plus centrée sur l’humain – une tendance susceptible de s’étendre à mesure que les modèles linguistiques deviennent plus sophistiqués et localisés.