Saudi Firm lança classificações de conversão de texto em fala em árabe orientadas pela comunidade

6

A empresa de IA Navid, sediada em Riade, uma divisão da Watad, lançou a Arabic TTS Arena, uma nova plataforma projetada para avaliar modelos de conversão de texto em fala (TTS) em árabe com base na preferência humana. Este placar aberto e voltado para a comunidade permite que falantes nativos de árabe comparem diretamente vozes geradas por IA, votando nas quais soa mais natural. O sistema classifica os modelos usando o modelo de classificação Bradley-Terry – o mesmo método usado para classificar jogadores de xadrez e impulsionar o popular quadro de classificação do modelo de linguagem LMArena – transformando votos individuais em pontuações baseadas em estatísticas.

Por que isso é importante: O árabe é falado por mais de 400 milhões de pessoas em mais de 20 países, mas o TTS de alta qualidade continua sendo um desenvolvimento recente. A avaliação tradicional do TTS depende de testes de laboratório e benchmarks algorítmicos, que muitas vezes não conseguem capturar o que as pessoas realmente preferem. A Arena Árabe TTS inverte esse modelo, priorizando a experiência auditiva do mundo real. Isto é especialmente crucial para o árabe, uma língua com imensa variação dialetal onde “soar natural” é altamente subjetivo.

Principais recursos da Arena Árabe TTS

A plataforma, hospedada no Hugging Face, classifica atualmente 15 modelos, incluindo sistemas de código aberto e comerciais:

  • Árabe F5-TTS
  • Faísca Árabe TTS
  • Conversador
  • Discurso de Peixe
    *Habibi TTS
  • Hamsa TTS
  • KaniTTS Árabe
  • Lahgtna
  • MOSS-TTS
  • OutTTS
  • Silma TSS (pequeno e grande)
  • DiscursoT5 Árabe
  • XTTS v2

O design da Arena garante uma votação imparcial: as identidades dos modelos ficam ocultas até o final de cada comparação, evitando que a reputação da marca pré-existente influencie os resultados. Adicionar um novo modelo é simples, exigindo apenas uma implementação de classe Python.

Além da qualidade do som: o triângulo TTS

A pesquisa de Navid destaca o “Triângulo TTS” – uma estrutura que argumenta que a síntese de fala eficaz deve abordar três dimensões: o que é dito, quem está dizendo e como é entregue. A maioria dos modelos TTS árabes existentes, afirmam, aborda apenas um ou dois deles.

A equipa argumenta que reduzir a diversidade dialectal do árabe a rótulos amplos a nível nacional (por exemplo, “egípcio” ou “saudita”) é inadequado. Os dialetos variam drasticamente mesmo dentro das cidades, tornando as identidades específicas dos falantes de referência mais valiosas do que as classificações regionais genéricas.

Além disso, eles criticam as tags emocionais (como “[risos]” ou “[triste]”) como artificiais. A emoção humana permeia declarações inteiras, em vez de aparecer como marcadores isolados. Em vez disso, eles defendem instruções de entrega em linguagem natural – semelhante à forma como os dubladores são direcionados.

Contexto: as crescentes ambições de IA da Arábia Saudita

Este lançamento baseia-se no trabalho anterior da Watad, empresa controladora da Navid. Em março de 2024, Watad lançou Mulhem, um grande modelo de linguagem específico da Arábia Saudita, treinado inteiramente em dados nacionais. Mulhem superou modelos comparáveis ​​nos testes iniciais, demonstrando o crescente investimento do Reino no desenvolvimento localizado de IA.

“Para a fala sintética, uma referência que reflita quais sons as pessoas realmente preferem ouvir pode ser fundamentalmente mais útil do que uma que reflita o que um algoritmo considera que parece correto.”

A Arena Árabe TTS representa uma mudança em direção a uma avaliação de IA mais centrada no ser humano – uma tendência que provavelmente se expandirá à medida que os modelos de linguagem se tornarem mais sofisticados e localizados.