TII представляет Falcon-H1-Tiny: новая эра специализированных AI-моделей

10

Институт технологических инноваций (TII) в Абу-Даби выпустил серию из 15 высокоэффективных, открытых языковых моделей под названием Falcon-H1-Tiny. Эти модели, варьирующиеся от 90 до 600 миллионов параметров, демонстрируют, что мощные возможности искусственного интеллекта не обязательно требуют огромных масштабов. В набор входят модели, специализирующиеся на общих задачах чат-бота, многоязычных задачах, программировании, вызове инструментов и даже продвинутом рассуждении – все они разработаны для конкурентоспособной производительности, несмотря на свои небольшие размеры.

Сдвиг в сторону специализированного AI

Это исследование знаменует собой потенциальный переломный момент в подходе к разработке искусственного интеллекта. Традиционно тенденция заключалась в создании более крупных, обобщенных моделей. Однако работа TII предполагает будущее, в котором множество небольших, специализированных моделей могут превосходить более крупные системы в определенных сценариях. Это особенно актуально, поскольку растет спрос на AI на периферийных устройствах и в условиях ограниченных ресурсов.

Ключ к этому успеху заключается в «анти-учебном» подходе TII. Вместо следования общепринятому конвейеру предварительного обучения, а затем точной настройки, эти модели были обучены непосредственно на данных инструкций, чатов или рассуждений с самого начала. Этот метод, по-видимому, обеспечивает более высокую специализированную производительность в меньших масштабах, обходя необходимость в чрезмерных вычислительных ресурсах.

Ключевые модели и возможности

Серия Falcon-H1-Tiny включает в себя несколько заметных моделей:

  • Англоязычные модели (90M параметров): Разработаны для общих задач, включая базовые модели и варианты с точной настройкой инструкций.
  • Многоязычные модели (100M параметров): Оптимизированы для работы с несколькими языками.
  • Модель рассуждений (600M параметров): Эта модель превосходит более крупные аналоги в задачах рассуждения благодаря специализированному предварительному обучению на длинных цепочках рассуждений.
  • Специализированные модели (90M параметров): Включая модели, разработанные для программирования (Falcon-H1-Tiny-Coder-90M) и вызова инструментов (Falcon-H1-Tiny-Tool-Calling).

Технические инновации

TII реализовал новые методы оптимизации, включая обучаемые множители вместе с оптимизатором Muon, для достижения передовых результатов. Подход к обучению и стратегии данных подробно документированы в техническом отчете, доступном на Hugging Face.

Модели свободно доступны на Hugging Face под лицензией TII Falcon, что способствует ответственной разработке искусственного интеллекта и экспериментам сообщества. Этот подход с открытым исходным кодом поощряет исследователей и разработчиков опираться на эту работу, еще больше расширяя границы AI в малых масштабах.

Последствия для будущего

Проект Falcon-H1-Tiny основан на более ранней семье Falcon-H1 от TII, которая впервые продемонстрировала потенциал гибридных архитектур Transformer/Mamba для достижения высокой производительности с минимальной инфраструктурой. Этот последний релиз подтверждает идею о том, что эффективный AI заключается не только в масштабе, но и в интеллектуальном дизайне и целенаправленном обучении.

Доступность этих моделей, вероятно, ускорит инновации в периферийных вычислениях, встроенном AI и других приложениях, где ограничения ресурсов имеют решающее значение.

«Исследования TII прокладывают путь к будущему, где специализированные модели AI могут обеспечивать высокую производительность без необходимости в огромных вычислительных ресурсах, делая AI более доступным и эффективным».

В конечном счете, серия Falcon-H1-Tiny представляет собой значительный шаг к демократизации доступа к передовым возможностям AI, снижая барьер для входа для разработчиков и исследователей.