Olmo Hybrid
Экспериментальная языковая модель с улучшенной эффективностью обучения и обработкой длинных контекстов
Доступен в РФ
О сервисе
Olmo Hybrid — это экспериментальная языковая модель, разработанная исследовательской группой AI2, которая комбинирует архитектуру трансформеров с линейными рекуррентными нейронными сетями (RNN). В отличие от традиционных трансформеров, модель демонстрирует существенные преимущества в эффективности обучения и способности обрабатывать длинные контексты. В основе лежит гибридный подход, где 75% слоев заменены на Gated DeltaNet — современную линейную RNN-архитектуру, обеспечивающую параллельную обработку данных при сохранении преимуществ рекуррентных сетей.
Ключевые преимущества
- 49% экономия токенов на MMLU (стандартном тесте знаний и рассуждений) по сравнению с Olmo 3, что позволяет достичь аналогичной точности с вдвое меньшим объемом данных
- Улучшенная производительность на математических и научных задачах (например, на BBH и MMLU Pro)
- Эффективность при работе с длинными контекстами: на 64k токенах гибридная модель показывает 85.0 баллов по RULER, в то время как Olmo 3 с YaRN — 70.9
- Полностью открытая модель с доступом к исходному коду и техническому отчету
Ограничения
- Снижение эффективности на задачах кодирования и общего вопрос-ответа (на начальных этапах обучения)
- Невозможность работы с русским языком в интерфейсе
- Сложность интеграции в существующие системы из-за специфических требований к архитектуре
- Необходимость высокопроизводительных GPU (NVIDIA H100/HGX B200) для полномасштабного использования
Скриншоты интерфейса
Плюсы
- ✓ Высокая эффективность обучения (на 49% меньше токенов на MMLU) /n Улучшенные результаты на математических и научных задачах /n Эффективная работа с длинными контекстами (до 64k токенов) /n Полностью открытая модель с доступом к техническому отчету
Минусы
- • Хуже в задачах кодирования и общего вопрос-ответа /n Отсутствие поддержки русского языка в интерфейсе /n Сложность интеграции из-за специфических требований к архитектуре /n Требуется высокопроизводительное оборудование для полноценного использования
Neiro