Компания Navid, базирующаяся в Эр-Рияде и являющаяся подразделением Watad, представила Arabic TTS Arena – новую платформу, разработанную для оценки арабских моделей преобразования текста в речь (TTS) на основе предпочтений пользователей. Эта открытая, управляемая сообществом таблица лидеров позволяет носителям арабского языка напрямую сравнивать голоса, созданные искусственным интеллектом, голосуя за те, которые звучат более естественно. Система ранжирует модели с использованием модели рейтинга Брэдли-Терри – того же метода, который используется для ранжирования шахматистов и обеспечивает работу популярной таблицы лидеров языковых моделей LMArena, – преобразуя отдельные голоса в статистически подтвержденные оценки.
Почему Это Важно: На арабском языке говорит более 400 миллионов человек в 20+ странах, но высококачественный TTS является относительно недавним развитием. Традиционная оценка TTS полагается на лабораторные тесты и алгоритмические бенчмарки, которые часто не отражают то, что действительно предпочитают люди. Arabic TTS Arena меняет эту модель, уделяя приоритетное внимание реальному опыту прослушивания. Это особенно важно для арабского языка, который имеет огромное диалектное разнообразие, где «естественное звучание» является весьма субъективным.
Ключевые Особенности Arabic TTS Arena
Платформа, размещенная на Hugging Face, в настоящее время ранжирует 15 моделей, включая как модели с открытым исходным кодом, так и коммерческие системы:
- Arabic F5-TTS
- Arabic Spark TTS
- Chatterbox
- Fish Speech
- Habibi TTS
- Hamsa TTS
- KaniTTS Arabic
- Lahgtna
- MOSS-TTS
- OuteTTS
- Silma TSS (small & large)
- SpeechT5 Arabic
- XTTS v2
Дизайн Arena обеспечивает непредвзятое голосование: идентификаторы моделей скрыты до завершения каждого сравнения, чтобы предотвратить влияние существующей репутации бренда на результаты. Добавление новой модели просто: требуется только реализация класса Python.
За Пределами Качества Звука: Треугольник TTS
Исследование Navid подчеркивает «Треугольник TTS» – концепцию, утверждающую, что эффективный синтез речи должен учитывать три измерения: что говорится, кто это говорит и как это произносится. Большинство существующих арабских TTS-моделей, по их утверждениям, полностью решают только одно или два из этих аспектов.
Команда утверждает, что сведение арабского диалектного разнообразия к широким страновым меткам (например, «египетский» или «саудовский») недостаточно. Диалекты сильно различаются даже в пределах городов, что делает конкретные идентификаторы говорящих более ценными, чем общие региональные классификации.
Кроме того, они критикуют эмоциональные теги (например, «[смех]» или «[грусть]») как искусственные. Человеческие эмоции пронизывают все высказывания, а не появляются в виде изолированных маркеров. Вместо этого они выступают за инструкции по передаче естественного языка – подобно тому, как режиссируют актеров озвучивания.
Контекст: Растущие Амбиции Саудовской Аравии в Области ИИ
Этот запуск основан на предыдущей работе Watad, материнской компании Navid. В марте 2024 года Watad выпустила Mulhem, большую языковую модель, специфичную для Саудовской Аравии, обученную исключительно на отечественных данных. Mulhem превзошла сопоставимые модели в первоначальных тестах, демонстрируя растущие инвестиции Королевства в локализованную разработку ИИ.
«Для синтетической речи эталон, отражающий то, что людям на самом деле нравится слышать, может быть фундаментально более полезным, чем тот, который отражает то, что алгоритм считает правильным».
Arabic TTS Arena представляет собой переход к более ориентированной на человека оценке ИИ – тенденция, которая, вероятно, расширится по мере развития и локализации языковых моделей.
