Una società saudita di intelligenza artificiale lancia la classifica TTS araba guidata dalla comunità

9

L’azienda #saudita lancia le classifiche di sintesi vocale in arabo guidate dalla comunità

Navid, una società di intelligenza artificiale con sede a Riad, una divisione di Watad, ha introdotto Arabic TTS Arena, una nuova piattaforma progettata per valutare modelli di sintesi vocale (TTS) arabi basati sulle preferenze umane. Questa classifica aperta e guidata dalla comunità consente ai madrelingua arabi di confrontare direttamente le voci generate dall’intelligenza artificiale, votando per quale sembra più naturale. Il sistema classifica i modelli utilizzando il modello di classificazione Bradley-Terry, lo stesso metodo utilizzato per classificare i giocatori di scacchi e alimentare la popolare classifica del modello linguistico LMArena, trasformando i voti individuali in punteggi supportati da statistiche.

Perché è importante: L’arabo è parlato da oltre 400 milioni di persone in più di 20 paesi, ma il TTS di alta qualità rimane uno sviluppo recente. La tradizionale valutazione TTS si basa su test di laboratorio e benchmark algoritmici, che spesso non riescono a catturare ciò che le persone effettivamente preferiscono. L’arabo TTS Arena ribalta questo modello, dando priorità all’esperienza di ascolto del mondo reale. Ciò è particolarmente cruciale per l’arabo, una lingua con un’immensa variazione dialettale in cui “suonare naturale” è altamente soggettivo.

Caratteristiche principali dell’Arena TTS araba

La piattaforma, ospitata su Hugging Face, attualmente classifica 15 modelli, inclusi sia sistemi open source che commerciali:

  • Arabo F5-TTS
  • Arabo Spark TTS
  • Chiacchierone
  • Discorso dei pesci
  • Habibi TTS
    *Hamsa TTS
  • KaniTTS arabo
  • Lahgtna
  • MOSS-TTS
    *OuteTTS
  • Silma TSS (piccolo e grande)
  • Discorso T5 arabo
    *XTTS v2

Il design dell’Arena garantisce un voto imparziale: le identità dei modelli sono nascoste fino a dopo ogni confronto, impedendo che la reputazione del marchio preesistente influenzi i risultati. Aggiungere un nuovo modello è semplice e richiede solo l’implementazione di una classe Python.

Oltre la qualità del suono: il triangolo TTS

La ricerca di Navid evidenzia il “Triangolo TTS”, un quadro che sostiene che una sintesi vocale efficace deve affrontare tre dimensioni: cosa viene detto, chi lo dice e come viene pronunciato. La maggior parte dei modelli TTS arabi esistenti, sostengono, affrontano completamente solo uno o due di questi.

Il team sostiene che ridurre la diversità dialettale dell’arabo a etichette più ampie a livello nazionale (ad esempio “egiziano” o “saudita”) sia inadeguato. I dialetti variano drasticamente anche all’interno delle città, rendendo le identità specifiche dei parlanti di riferimento più preziose rispetto alle classificazioni regionali generiche.

Inoltre, criticano i tag emotivi (come “[ride]” o “[triste]”) in quanto artificiali. Le emozioni umane permeano intere espressioni, piuttosto che apparire come indicatori isolati. Invece, sostengono le istruzioni di consegna del linguaggio naturale, simili a come vengono dirette i doppiatori.

Contesto: le crescenti ambizioni dell’Arabia Saudita in materia di intelligenza artificiale

Questo lancio si basa sul lavoro precedente di Watad, la società madre di Navid. Nel marzo 2024, Watad ha pubblicato Mulhem, un modello linguistico ampio specifico per l’Arabia Saudita, addestrato interamente su dati nazionali. Mulhem ha sovraperformato modelli comparabili nei test iniziali, dimostrando il crescente investimento del Regno nello sviluppo dell’IA localizzata.

“Per il parlato sintetico, un parametro di riferimento che rifletta quali suoni le persone preferiscono effettivamente sentire potrebbe essere fondamentalmente più utile di uno che rifletta ciò che un algoritmo ritiene corretto.”

L’arena TTS araba rappresenta uno spostamento verso una valutazione dell’intelligenza artificiale più incentrata sull’uomo, una tendenza destinata ad espandersi man mano che i modelli linguistici diventano più sofisticati e localizzati.