Das in Riad ansässige KI-Unternehmen Navid, ein Geschäftsbereich von Watad, hat die Arabic TTS Arena eingeführt, eine neue Plattform zur Bewertung arabischer Text-to-Speech-Modelle (TTS) basierend auf menschlichen Vorlieben. Diese offene, von der Community betriebene Bestenliste ermöglicht es arabischen Muttersprachlern, KI-generierte Stimmen direkt zu vergleichen und darüber abzustimmen, welche Stimmen natürlicher klingen. Das System ordnet Modelle anhand des Bradley-Terry-Bewertungsmodells ein – der gleichen Methode, die auch für die Einstufung von Schachspielern und die beliebte Bestenliste des LMArena-Sprachmodells verwendet wird – und wandelt individuelle Stimmen in statistisch abgesicherte Ergebnisse um.
Warum das wichtig ist: Arabisch wird von über 400 Millionen Menschen in über 20 Ländern gesprochen, dennoch ist hochwertiges TTS noch eine junge Entwicklung. Die herkömmliche TTS-Bewertung basiert auf Labortests und algorithmischen Benchmarks, die oft nicht erfassen, was Menschen tatsächlich bevorzugen. Die Arabic TTS Arena stellt dieses Modell um und priorisiert das reale Hörerlebnis. Dies ist besonders wichtig für Arabisch, eine Sprache mit enormen dialektalen Variationen, bei der „natürlich klingen“ höchst subjektiv ist.
Hauptmerkmale der arabischen TTS Arena
Die auf Hugging Face gehostete Plattform umfasst derzeit 15 Modelle, darunter sowohl Open-Source- als auch kommerzielle Systeme:
- Arabisch F5-TTS
- Arabisches Spark TTS
- Chatterbox
- Fischrede
- Habibi TTS
- Hamsa TTS
- KaniTTS Arabisch
- Lahgtna
- MOOS-TTS
- OuteTTS
- Silma TSS (klein & groß)
- SpeechT5 Arabisch
- XTTS v2
Das Design der Arena gewährleistet eine unvoreingenommene Abstimmung: Modellidentitäten werden bis nach jedem Vergleich ausgeblendet, wodurch verhindert wird, dass bereits bestehende Markenreputationen die Ergebnisse beeinflussen. Das Hinzufügen eines neuen Modells ist einfach und erfordert lediglich eine Python-Klassenimplementierung.
Jenseits der Klangqualität: Das TTS-Dreieck
Navids Forschung beleuchtet das „TTS-Dreieck“ – ein Rahmenwerk, das argumentiert, dass eine effektive Sprachsynthese drei Dimensionen berücksichtigen muss: was gesagt wird, wer es sagt und wie es übermittelt wird. Sie behaupten, dass die meisten existierenden arabischen TTS-Modelle nur ein oder zwei dieser Probleme vollständig berücksichtigen.
Das Team argumentiert, dass es unzureichend ist, die Dialektvielfalt des Arabischen auf weit gefasste Bezeichnungen auf Landesebene (z. B. „Ägypter“ oder „Saudi“) zu reduzieren. Dialekte variieren selbst innerhalb von Städten drastisch, sodass spezifische Referenzidentitäten von Sprechern wertvoller sind als generische regionale Klassifizierungen.
Darüber hinaus kritisieren sie Emotions-Tags (wie „[lachen]“ oder „[traurig]“) als künstlich. Menschliche Emotionen durchdringen ganze Äußerungen und erscheinen nicht als isolierte Marker. Stattdessen befürworten sie Anweisungen für die Übermittlung in natürlicher Sprache – ähnlich wie bei Synchronsprechern.
Kontext: Saudi-Arabiens wachsende KI-Ambitionen
Dieser Start baut auf früheren Arbeiten von Watad, der Muttergesellschaft von Navid, auf. Im März 2024 veröffentlichte Watad Mulhem, ein Saudi-Arabien-spezifisches großes Sprachmodell, das vollständig auf inländischen Daten trainiert wurde. Mulhem übertraf vergleichbare Modelle in ersten Tests und demonstrierte damit die wachsenden Investitionen des Königreichs in die lokalisierte KI-Entwicklung.
„Für synthetische Sprache könnte ein Benchmark, der widerspiegelt, welche Geräusche Menschen tatsächlich hören möchten, grundsätzlich nützlicher sein als einer, der widerspiegelt, was ein Algorithmus für richtig hält.“
Die arabische TTS-Arena stellt einen Wandel hin zu einer stärker menschenzentrierten KI-Bewertung dar – ein Trend, der sich wahrscheinlich noch verstärken wird, wenn Sprachmodelle immer ausgefeilter und lokalisierter werden.























