Perusahaan Saudi Meluncurkan Pemeringkatan Text-to-Speech Bahasa Arab Berbasis Komunitas

10
Perusahaan Saudi Meluncurkan Pemeringkatan Text-to-Speech Bahasa Arab Berbasis Komunitas

Perusahaan AI yang berbasis di Riyadh, Navid, yang merupakan salah satu divisi dari Watad, telah memperkenalkan Arabic TTS Arena, sebuah platform baru yang dirancang untuk mengevaluasi model text-to-speech (TTS) berbahasa Arab berdasarkan preferensi manusia. Papan peringkat terbuka dan berbasis komunitas ini memungkinkan penutur asli bahasa Arab untuk membandingkan secara langsung suara yang dihasilkan AI, lalu memilih mana yang terdengar lebih natural. Sistem ini memberi peringkat pada model menggunakan model peringkat Bradley-Terry—metode yang sama yang digunakan untuk menentukan peringkat pemain catur dan memberdayakan papan peringkat model bahasa LMArena yang populer—mengubah suara individu menjadi skor yang didukung secara statistik.

Mengapa Ini Penting: Bahasa Arab digunakan oleh lebih dari 400 juta orang di lebih dari 20 negara, namun TTS berkualitas tinggi masih merupakan perkembangan terkini. Evaluasi TTS tradisional bergantung pada uji laboratorium dan tolok ukur algoritmik, yang sering kali gagal menangkap apa yang sebenarnya disukai orang. Arena TTS Arab membalik model ini, memprioritaskan pengalaman mendengarkan di dunia nyata. Hal ini sangat penting khususnya bagi bahasa Arab, sebuah bahasa dengan variasi dialek yang sangat besar sehingga “terdengar alami” sangatlah subjektif.

Fitur Utama TTS Arena Arab

Platform tersebut, yang dihosting di Hugging Face, saat ini memberi peringkat pada 15 model, termasuk sistem sumber terbuka dan komersial:

  • Arab F5-TTS
  • TTS Percikan Arab
  • Kotak Obrolan
  • Pidato Ikan
    Habibi TTS
    Hamsa TTS
  • KaniTTS Arab
  • Lahgtna
    *lumut-TTS
  • KeluarTTS
  • Silma TSS (kecil & besar)
  • Pidato T5 Arab
  • XTTS v2

Desain Arena memastikan pemungutan suara yang tidak memihak: identitas model disembunyikan hingga setiap perbandingan selesai, sehingga reputasi merek yang sudah ada tidak dapat memengaruhi hasil. Menambahkan model baru itu sederhana, hanya memerlukan implementasi kelas Python.

Melampaui Kualitas Suara: Segitiga TTS

Penelitian Navid menyoroti “Segitiga TTS”—sebuah kerangka kerja yang menyatakan bahwa sintesis ucapan yang efektif harus memperhatikan tiga dimensi: apa yang diucapkan, siapa yang mengucapkannya, dan bagaimana penyampaiannya. Kebanyakan model TTS Arab yang ada, klaim mereka, hanya sepenuhnya mengatasi satu atau dua model tersebut.

Tim ini berpendapat bahwa mengurangi keragaman dialek bahasa Arab menjadi label yang luas di tingkat negara (misalnya, “Mesir” atau “Saudi”) tidaklah memadai. Dialek sangat bervariasi bahkan di dalam kota, menjadikan identitas penutur referensi tertentu lebih berharga daripada klasifikasi regional yang umum.

Selain itu, mereka mengkritik label emosi (seperti “[tertawa]” atau “[sedih]”) sebagai sesuatu yang dibuat-buat. Emosi manusia meresap ke dalam keseluruhan ucapan, bukannya muncul sebagai penanda tersendiri. Sebaliknya, mereka menganjurkan instruksi penyampaian bahasa alami—mirip dengan bagaimana aktor suara diarahkan.

Konteks: Ambisi AI yang Berkembang di Arab Saudi

Peluncuran ini melanjutkan pekerjaan sebelumnya yang dilakukan oleh Watad, perusahaan induk Navid. Pada bulan Maret 2024, Watad merilis Mulhem, model bahasa besar khusus Arab Saudi yang dilatih sepenuhnya pada data domestik. Mulhem mengungguli model serupa dalam pengujian awal, dan hal ini menunjukkan pertumbuhan investasi Kerajaan Arab Saudi dalam pengembangan AI lokal.

“Untuk ucapan sintetis, tolok ukur yang mencerminkan suara apa yang sebenarnya disukai orang untuk didengar pada dasarnya bisa lebih berguna daripada tolok ukur yang mencerminkan suara yang menurut algoritme terdengar benar.”

Arena TTS Arab mewakili pergeseran ke arah evaluasi AI yang lebih berpusat pada manusia—sebuah tren yang kemungkinan akan meluas seiring dengan semakin canggihnya model bahasa dan terlokalisasinya model bahasa.