додому Najnowsze wiadomości i artykuły Saudyjska firma wprowadza arabską ocenę TTS na podstawie ocen użytkowników

Najnowsze wiadomości i artykuły

Saudyjska firma wprowadza arabską ocenę TTS na podstawie ocen użytkowników

25.03.2026

7

<br>

Navid z siedzibą w Riyadzie, oddział firmy Watad, wprowadził Arabic TTS Arena, nową platformę przeznaczoną do oceny arabskich modeli zamiany tekstu na mowę (TTS) w oparciu o preferencje użytkownika. Ta otwarta, kierowana przez społeczność tabela wyników umożliwia użytkownikom języka arabskiego bezpośrednie porównywanie głosów wygenerowanych przez sztuczną inteligencję i głosowanie na te, które brzmią bardziej naturalnie. System szereguje modele, korzystając z modelu ocen Bradleya-Terry’ego — tej samej metody, której używa się do rankingu szachistów i która stanowi podstawę popularnego modelu językowego tabeli liderów LMArena — przekształcając indywidualne głosy w wyniki potwierdzone statystycznie.

Dlaczego to ważne: Arabskim posługuje się ponad 400 milionów ludzi w ponad 20 krajach, ale wysokiej jakości TTS to wynalazek stosunkowo nowy. Tradycyjna ocena TTS opiera się na testach laboratoryjnych i wzorcach algorytmicznych, które często nie odzwierciedlają tego, co ludzie naprawdę preferują. Arabska TTS Arena zmienia ten model, stawiając na pierwszym miejscu prawdziwe wrażenia słuchowe. Jest to szczególnie ważne w przypadku języka arabskiego, który charakteryzuje się ogromną różnorodnością dialektalną, a „naturalny dźwięk” jest wysoce subiektywny.

Kluczowe cechy arabskiej areny TTS

Na platformie prowadzonej przez Hugging Face znajduje się obecnie 15 modeli, w tym zarówno modele open source, jak i systemy komercyjne:

Arabski F5-TTS
Arabski Spark TTS
Gaduła
*Mowa ryby
Habibi TTS
*Hamsa TTS
KaniTTS arabski
*Lahgtna
MOSS-TTS
OuteTTS
Silma TSS (mała i duża)
SpeechT5 arabski
*XTTS wersja 2

Projekt Areny zapewnia bezstronne głosowanie: identyfikatory modeli są ukryte do czasu zakończenia każdego porównania, aby zapobiec wpływowi istniejącej reputacji marki na wyniki. Dodanie nowego modelu jest proste: wymagana jest jedynie implementacja klasy Python.

Poza jakością dźwięku: trójkątny TTS

Badania Navida podkreślają „trójkąt TTS” – koncepcję, która stwierdza, że skuteczna synteza mowy musi uwzględniać trzy wymiary: co się mówi, kto to mówi i jak to mówi. Większość istniejących arabskich modeli TTS twierdzi, że w pełni uwzględnia tylko jeden lub dwa z tych aspektów.

Zespół argumentuje, że ograniczenie różnorodności dialektu arabskiego do ogólnych etykiet krajowych (takich jak „egipski” czy „saudyjski”) nie wystarczy. Dialekty różnią się znacznie nawet w obrębie miast, co sprawia, że określone identyfikatory mówiących są cenniejsze niż ogólne klasyfikacje regionalne.

Ponadto krytykują znaczniki emocjonalne (takie jak „[śmiech]” czy „[smutek]”) jako sztuczne. Ludzkie emocje przenikają wszystkie wypowiedzi, a nie pojawiają się jako izolowane znaczniki. Zamiast tego opowiadają się za instrukcjami przekazywania języka naturalnego – podobnie jak reżyseruje się aktorów głosowych.

Kontekst: rosnące ambicje Arabii Saudyjskiej w zakresie sztucznej inteligencji

Ta premiera opiera się na wcześniejszych pracach Watad, spółki-matki Navid. W marcu 2024 r. firma Watad wypuściła Mulhem, duży model językowy specyficzny dla Arabii Saudyjskiej, szkolony wyłącznie na danych krajowych. Mulhem uzyskał lepsze wyniki niż porównywalne modele we wstępnych testach, co świadczy o rosnących inwestycjach Królestwa w zlokalizowany rozwój sztucznej inteligencji.

„W przypadku mowy syntetycznej standard odzwierciedlający to, co ludzie faktycznie lubią słyszeć, może być zasadniczo bardziej przydatny niż ten, który odzwierciedla to, co algorytm uważa za prawidłowe”.

Arabska TTS Arena reprezentuje zwrot w kierunku oceny sztucznej inteligencji bardziej skoncentrowanej na człowieku, a trend ten prawdopodobnie będzie się pogłębiał w miarę ewolucji i lokalizacji modeli językowych.