Navid z siedzibą w Riyadzie, oddział firmy Watad, wprowadził Arabic TTS Arena, nową platformę przeznaczoną do oceny arabskich modeli zamiany tekstu na mowę (TTS) w oparciu o preferencje użytkownika. Ta otwarta, kierowana przez społeczność tabela wyników umożliwia użytkownikom języka arabskiego bezpośrednie porównywanie głosów wygenerowanych przez sztuczną inteligencję i głosowanie na te, które brzmią bardziej naturalnie. System szereguje modele, korzystając z modelu ocen Bradleya-Terry’ego — tej samej metody, której używa się do rankingu szachistów i która stanowi podstawę popularnego modelu językowego tabeli liderów LMArena — przekształcając indywidualne głosy w wyniki potwierdzone statystycznie.
Dlaczego to ważne: Arabskim posługuje się ponad 400 milionów ludzi w ponad 20 krajach, ale wysokiej jakości TTS to wynalazek stosunkowo nowy. Tradycyjna ocena TTS opiera się na testach laboratoryjnych i wzorcach algorytmicznych, które często nie odzwierciedlają tego, co ludzie naprawdę preferują. Arabska TTS Arena zmienia ten model, stawiając na pierwszym miejscu prawdziwe wrażenia słuchowe. Jest to szczególnie ważne w przypadku języka arabskiego, który charakteryzuje się ogromną różnorodnością dialektalną, a „naturalny dźwięk” jest wysoce subiektywny.
Kluczowe cechy arabskiej areny TTS
Na platformie prowadzonej przez Hugging Face znajduje się obecnie 15 modeli, w tym zarówno modele open source, jak i systemy komercyjne:
- Arabski F5-TTS
- Arabski Spark TTS
- Gaduła
*Mowa ryby - Habibi TTS
*Hamsa TTS - KaniTTS arabski
*Lahgtna - MOSS-TTS
- OuteTTS
- Silma TSS (mała i duża)
- SpeechT5 arabski
*XTTS wersja 2
Projekt Areny zapewnia bezstronne głosowanie: identyfikatory modeli są ukryte do czasu zakończenia każdego porównania, aby zapobiec wpływowi istniejącej reputacji marki na wyniki. Dodanie nowego modelu jest proste: wymagana jest jedynie implementacja klasy Python.
Poza jakością dźwięku: trójkątny TTS
Badania Navida podkreślają „trójkąt TTS” – koncepcję, która stwierdza, że skuteczna synteza mowy musi uwzględniać trzy wymiary: co się mówi, kto to mówi i jak to mówi. Większość istniejących arabskich modeli TTS twierdzi, że w pełni uwzględnia tylko jeden lub dwa z tych aspektów.
Zespół argumentuje, że ograniczenie różnorodności dialektu arabskiego do ogólnych etykiet krajowych (takich jak „egipski” czy „saudyjski”) nie wystarczy. Dialekty różnią się znacznie nawet w obrębie miast, co sprawia, że określone identyfikatory mówiących są cenniejsze niż ogólne klasyfikacje regionalne.
Ponadto krytykują znaczniki emocjonalne (takie jak „[śmiech]” czy „[smutek]”) jako sztuczne. Ludzkie emocje przenikają wszystkie wypowiedzi, a nie pojawiają się jako izolowane znaczniki. Zamiast tego opowiadają się za instrukcjami przekazywania języka naturalnego – podobnie jak reżyseruje się aktorów głosowych.
Kontekst: rosnące ambicje Arabii Saudyjskiej w zakresie sztucznej inteligencji
Ta premiera opiera się na wcześniejszych pracach Watad, spółki-matki Navid. W marcu 2024 r. firma Watad wypuściła Mulhem, duży model językowy specyficzny dla Arabii Saudyjskiej, szkolony wyłącznie na danych krajowych. Mulhem uzyskał lepsze wyniki niż porównywalne modele we wstępnych testach, co świadczy o rosnących inwestycjach Królestwa w zlokalizowany rozwój sztucznej inteligencji.
„W przypadku mowy syntetycznej standard odzwierciedlający to, co ludzie faktycznie lubią słyszeć, może być zasadniczo bardziej przydatny niż ten, który odzwierciedla to, co algorytm uważa za prawidłowe”.
Arabska TTS Arena reprezentuje zwrot w kierunku oceny sztucznej inteligencji bardziej skoncentrowanej na człowieku, a trend ten prawdopodobnie będzie się pogłębiał w miarę ewolucji i lokalizacji modeli językowych.























