Компанія Navid, що базується в Ер-Ріяді і є підрозділом Watad, представила Arabic TTS Arena – нову платформу, розроблену для оцінки арабських моделей перетворення тексту на мову (TTS) на основі переваг користувачів. Ця відкрита, керована спільнотою таблиця лідерів дозволяє носіям арабської мови безпосередньо порівнювати голоси, створені штучним інтелектом, голосуючи за ті, що звучать природніше. Система ранжує моделі з використанням моделі рейтингу Бредлі-Террі – того ж методу, який використовується для ранжування шахістів та забезпечує роботу популярної таблиці лідерів мовних моделей LMArena – перетворюючи окремі голоси на статистично підтверджені оцінки.
Чому це Важливо: Арабською мовою говорить більше 400 мільйонів людей у 20+ країнах, але високоякісний TTS є відносно недавнім розвитком. Традиційна оцінка TTS покладається на лабораторні тести та алгоритмічні бенчмарки, які часто не відображають те, що дійсно дійсно віддають перевагу людям. Arabic TTS Arena змінює цю модель, приділяючи пріоритетну увагу до реального досвіду прослуховування. Це особливо важливо для арабської мови, яка має величезну діалектну різноманітність, де «природне звучання» є дуже суб’єктивним.
Ключові Особливості Arabic TTS Arena
Платформа, розміщена на Hugging Face, в даний час ранжує 15 моделей, включаючи як моделі з відкритим вихідним кодом, так і комерційні системи:
- Arabic F5-TTS
- Arabic Spark TTS
- Chatterbox
- Fish Speech
- Habibi TTS
- Hamsa TTS
- KaniTTS Arabic
- Lahgtna
- MOSS-TTS
- OuteTTS
- Silma TSS (small & large)
- SpeechT5 Arabic
- XTTS v2
Дизайн Arena забезпечує неупереджене голосування: ідентифікатори моделей приховані до завершення кожного порівняння, щоб запобігти впливу існуючої репутації бренду на результати. Додавання нової моделі просто: потрібна лише реалізація класу Python.
За Межами Якості Звука: Трикутник TTS
Дослідження Navid підкреслює «Трикутник TTS» – концепцію, яка стверджує, що ефективний синтез мови повинен враховувати три виміри: що говориться, хто це говорить і як це вимовляється. Більшість існуючих арабських TTS-моделей, за їхніми твердженнями, повністю вирішують лише один або два з цих аспектів.
Команда стверджує, що зведення арабського діалектного розмаїття до широких міток країни (наприклад, «єгипетський» або «саудівський») недостатньо. Діалекти сильно різняться навіть у межах міст, що робить конкретні ідентифікатори тих, хто говорить більш цінними, ніж загальні регіональні класифікації.
Крім того, вони критикують емоційні теги (наприклад, “[сміх”” або “[сум”]) як штучні. Людські емоції пронизують всі висловлювання, а чи не з’являються як ізольованих маркерів. Натомість вони виступають за інструкції з передачі природної мови – подібно до того, як режисують акторів озвучування.
Контекст: Зростаючі Амбіції Саудівської Аравії в області ІІ
Цей запуск базується на попередній роботі Watad, материнської компанії Navid. У березні 2024 року Watad випустила Mulhem, велику мовну модель, специфічну для Саудівської Аравії, навчену виключно на вітчизняних даних. Mulhem перевершила зіставні моделі в початкових тестах, демонструючи зростаючі інвестиції Королівства в локалізовану розробку ІІ.
«Для синтетичної мови еталон, який відбиває те, що людям дійсно подобається чути, може бути фундаментально кориснішим, ніж той, який відбиває те, що алгоритм вважає правильним».
Arabic TTS Arena є перехід до більш орієнтованої на людину оцінки ІІ – тенденція, яка, ймовірно, розшириться в міру розвитку та локалізації мовних моделей.
