Una empresa saudita lanza clasificaciones de conversión de texto a voz en árabe impulsadas por la comunidad
La empresa de inteligencia artificial Navid, con sede en Riad, una división de Watad, ha presentado Arabic TTS Arena, una nueva plataforma diseñada para evaluar modelos árabes de texto a voz (TTS) basados en las preferencias humanas. Esta tabla de clasificación abierta e impulsada por la comunidad permite a los hablantes nativos de árabe comparar directamente las voces generadas por IA y votar por cuál suena más natural. El sistema clasifica los modelos utilizando el modelo de clasificación Bradley-Terry, el mismo método utilizado para clasificar a los jugadores de ajedrez y potenciar la popular tabla de clasificación del modelo de lenguaje LMArena, transformando los votos individuales en puntuaciones respaldadas estadísticamente.
Por qué esto es importante: Más de 400 millones de personas en más de 20 países hablan árabe, pero el TTS de alta calidad sigue siendo un desarrollo reciente. La evaluación TTS tradicional se basa en pruebas de laboratorio y puntos de referencia algorítmicos, que a menudo no logran capturar lo que la gente realmente prefiere. El TTS Arena árabe invierte este modelo y prioriza la experiencia auditiva del mundo real. Esto es especialmente crucial para el árabe, un idioma con una inmensa variación dialectal donde “sonar natural” es muy subjetivo.
Características clave del TTS Arena árabe
La plataforma, alojada en Hugging Face, actualmente clasifica 15 modelos, incluidos sistemas comerciales y de código abierto:
- Árabe F5-TTS
- Chispa árabe TTS
- charlatán
- Discurso de pez
*Habibi TTS - Hamsa TTS
- KaniTTS árabe
- Lahgtna
- MOSS-TTS
- SalidaTTS
- Silma TSS (pequeño y grande)
- Discurso T5 árabe
*XTTSv2
El diseño de Arena garantiza una votación imparcial: las identidades de los modelos están ocultas hasta después de cada comparación, evitando que la reputación de marca preexistente influya en los resultados. Agregar un nuevo modelo es simple y solo requiere una implementación de clase Python.
Más allá de la calidad del sonido: el triángulo TTS
La investigación de Navid destaca el “Triángulo TTS”, un marco que sostiene que una síntesis de voz eficaz debe abordar tres dimensiones: qué se dice, quién lo dice y cómo se expresa. Afirman que la mayoría de los modelos árabes de TTS existentes sólo abordan plenamente uno o dos de ellos.
El equipo sostiene que reducir la diversidad dialectal del árabe a etiquetas amplias a nivel de país (por ejemplo, “egipcio” o “saudita”) es inadecuado. Los dialectos varían drásticamente incluso dentro de las ciudades, lo que hace que las identidades de hablantes de referencia específicas sean más valiosas que las clasificaciones regionales genéricas.
Además, critican las etiquetas de emociones (como “[risa]” o “[triste]”) por considerarlas artificiales. Las emociones humanas impregnan expresiones enteras, en lugar de aparecer como marcadores aislados. En cambio, abogan por la entrega de instrucciones en lenguaje natural, similar a cómo se dirige a los actores de doblaje.
Contexto: Las crecientes ambiciones de Arabia Saudita en materia de IA
Este lanzamiento se basa en trabajos anteriores de Watad, la empresa matriz de Navid. En marzo de 2024, Watad lanzó Mulhem, un modelo de lenguaje grande específico de Arabia Saudita formado completamente con datos nacionales. Mulhem superó a modelos comparables en las pruebas iniciales, lo que demuestra la creciente inversión del Reino en el desarrollo de IA localizada.
“Para el habla sintética, un punto de referencia que refleje qué sonidos la gente realmente prefiere escuchar podría ser fundamentalmente más útil que uno que refleje lo que un algoritmo cree que suena correcto”.
El TTS Arena árabe representa un cambio hacia una evaluación de la IA más centrada en el ser humano, una tendencia que probablemente se expandirá a medida que los modelos lingüísticos se vuelvan más sofisticados y localizados.























