Het in Riyadh gevestigde AI-bedrijf Navid, een divisie van Watad, heeft de Arabische TTS Arena geïntroduceerd, een nieuw platform dat is ontworpen om Arabische tekst-naar-spraak (TTS)-modellen te evalueren op basis van menselijke voorkeur. Dit open, door de gemeenschap aangestuurde klassement stelt Arabische moedertaalsprekers in staat rechtstreeks door AI gegenereerde stemmen te vergelijken, waarbij stemmen natuurlijker klinkt. Het systeem rangschikt modellen met behulp van het Bradley-Terry-beoordelingsmodel – dezelfde methode die wordt gebruikt om schakers te rangschikken en het populaire LMArena-taalmodel-leaderboard aan te sturen – waarbij individuele stemmen worden omgezet in statistisch onderbouwde scores.
Waarom dit belangrijk is: Arabisch wordt gesproken door meer dan 400 miljoen mensen in meer dan 20 landen, maar hoogwaardige TTS blijft een recente ontwikkeling. Traditionele TTS-evaluatie is gebaseerd op laboratoriumtests en algoritmische benchmarks, die vaak niet vastleggen wat mensen eigenlijk verkiezen. De Arabische TTS Arena draait dit model om en geeft prioriteit aan luisterervaring in de echte wereld. Dit is vooral van cruciaal belang voor het Arabisch, een taal met een enorme dialectvariatie waarin ‘natuurlijk klinken’ zeer subjectief is.
Belangrijkste kenmerken van de Arabische TTS Arena
Het platform, gehost op Hugging Face, kent momenteel 15 modellen, waaronder zowel open-source als commerciële systemen:
- Arabisch F5-TTS
- Arabische Spark TTS
- Chatterbox
- Vistoespraak
- Habibi TTS
- Hamsa TTS
- KaniTTS Arabisch
- Lahgtna
- MOSS-TTS
- OuteTTS
- Silma TSS (klein & groot)
- SpeechT5 Arabisch
*XTTSv2
Het ontwerp van de Arena zorgt voor onbevooroordeelde stemming: modelidentiteiten worden verborgen tot na elke vergelijking, waardoor wordt voorkomen dat een reeds bestaande merkreputatie de resultaten beïnvloedt. Het toevoegen van een nieuw model is eenvoudig en vereist alleen een implementatie van de Python-klasse.
Verder dan geluidskwaliteit: de TTS-driehoek
Het onderzoek van Navid benadrukt de ‘TTS-driehoek’ – een raamwerk dat stelt dat effectieve spraaksynthese drie dimensies moet aanpakken: wat wordt gezegd, wie het zegt, en hoe het wordt afgeleverd. De meeste bestaande Arabische TTS-modellen, zo beweren zij, pakken slechts een of twee hiervan volledig aan.
Het team betoogt dat het beperken van de dialectische diversiteit van het Arabisch tot brede labels op landniveau (bijvoorbeeld ‘Egyptisch’ of ‘Saoedisch’) ontoereikend is. Dialecten variëren drastisch, zelfs binnen steden, waardoor specifieke identiteiten van referentiesprekers waardevoller zijn dan generieke regionale classificaties.
Bovendien bekritiseren ze emotietags (zoals “[lach]” of “[verdrietig]”) als kunstmatig. Menselijke emoties doordringen hele uitingen, in plaats van te verschijnen als geïsoleerde markeringen. In plaats daarvan pleiten ze voor instructies voor het overbrengen van natuurlijke taal, vergelijkbaar met de manier waarop stemacteurs worden aangestuurd.
Context: de groeiende AI-ambities van Saoedi-Arabië
Deze lancering bouwt voort op eerder werk van Watad, het moederbedrijf van Navid. In maart 2024 bracht Watad Mulhem uit, een Saoedi-Arabië-specifiek groottaalmodel dat volledig is getraind op binnenlandse gegevens. Mulhem presteerde beter dan vergelijkbare modellen in de eerste tests, wat de groeiende investeringen van het Koninkrijk in gelokaliseerde AI-ontwikkeling aantoont.
“Voor synthetische spraak zou een benchmark die weergeeft welke geluiden mensen daadwerkelijk het liefst horen fundamenteel nuttiger kunnen zijn dan een benchmark die weergeeft wat een algoritme denkt dat correct klinkt.”
De Arabische TTS Arena vertegenwoordigt een verschuiving naar een meer mensgerichte AI-evaluatie – een trend die zich waarschijnlijk zal uitbreiden naarmate taalmodellen geavanceerder en gelokaliseerder worden.
