Інститут технологічних інновацій (TII) в Абу-Дабі випустив серію з 15 високопродуктивних моделей з відкритою мовою під назвою Falcon-H1-Tiny. Ці моделі, що варіюються від 90 до 600 мільйонів параметрів, демонструють, що потужні можливості ШІ не обов’язково вимагають великого масштабу. У набір входять моделі, які спеціалізуються на загальних завданнях чат-ботів, багатомовних завданнях, програмуванні, викликах інструментів і навіть розширеному міркуванні — усі розроблені для конкурентоспроможної продуктивності, незважаючи на невеликий розмір.
Перехід до спеціалізованого ШІ
Це дослідження знаменує потенційний кардинальний підхід до розробки штучного інтелекту. Традиційно тенденцією було створення більших, більш узагальнених моделей. Однак робота TII передбачає майбутнє, в якому багато маленьких спеціалізованих моделей можуть перевершити більші системи за певними сценаріями. Це особливо вірно, оскільки попит на штучний інтелект зростає на межі та в умовах обмежених ресурсів.
Ключ до цього успіху полягає в «антинавчальному» підході TII. Замість звичайного попереднього навчання та тонкого налаштування ці моделі навчалися безпосередньо на основі інструкцій, чату чи даних міркування з самого початку. Схоже, що цей метод забезпечує вищу виділену продуктивність у меншому масштабі, обходячи потребу в надмірних обчислювальних ресурсах.
Основні моделі та функції
Серія Falcon-H1-Tiny включає кілька помітних моделей:
- Моделі англійською мовою (параметри 90M): Розроблено для загальних застосувань, включаючи базові моделі та опції з інструкціями щодо тонкого налаштування.
- **Багатомовні моделі (100 млн параметрів): ** Оптимізовано для роботи з кількома мовами.
- Модель міркування (600 млн параметрів): Ця модель перевершує більші аналоги в завданнях міркування завдяки спеціалізованому попередньому навчанню з довгих ланцюжків міркувань.
- Спеціалізовані моделі (параметри 90M): Включно з моделями, призначеними для програмування (Falcon-H1-Tiny-Coder-90M) і виклику інструментів (Falcon-H1-Tiny-Tool-Calling).
Технічні інновації
TII реалізував нові методи оптимізації, включаючи множники навчання разом із оптимізатором Muon, щоб досягти передових результатів. Підхід до навчання та стратегія даних детально описані в офіційному документі, доступному на Hugging Face.
Ці моделі є у вільному доступі на Hugging Face за ліцензією TII Falcon, сприяючи відповідальній розробці штучного інтелекту та експерименту спільноти. Цей підхід із відкритим вихідним кодом заохочує дослідників і розробників розвивати цю роботу, ще більше розширюючи межі штучного інтелекту в малому масштабі.
Наслідки для майбутнього
Проект Falcon-H1-Tiny базується на попередньому сімействі TII Falcon-H1, яке вперше продемонструвало потенціал гібридних архітектур Transformer/Mamba для досягнення високої продуктивності з мінімальною інфраструктурою. Цей останній випуск підкріплює ідею про те, що ефективний штучний інтелект — це не лише масштаб, але й інтелектуальний дизайн і цілеспрямоване навчання.
Доступність цих моделей, ймовірно, прискорить інновації в периферійних обчисленнях, вбудованому штучному інтелекті та інших програмах, де обмеження ресурсів є критичними.
«Дослідження TII відкривають шлях до майбутнього, де спеціалізовані моделі ШІ зможуть забезпечувати високу продуктивність без потреби у величезних обчислювальних ресурсах, роблячи ШІ більш доступним і ефективним».
Зрештою, серія Falcon-H1-Tiny є значним кроком до демократизації доступу до розширених можливостей штучного інтелекту, знижуючи бар’єри для розробників і дослідників.
