бургерЛого хедера
Поиск
avatar

Alibaba выпускает Qwen with Questions — открытую модель рассуждений, которая превосходит o1-preview

Китайский гигант электронной коммерции Alibaba выпустил новейшую модель в своей постоянно расширяющейся линейке Qwen.

image

Что такое Qwen with Questions (OwQ?) и можно ли его использовать в коммерческих целях?

Alibaba выпустила версию QwQ с 32 миллиардами параметров и контекстом из 32 000 токенов. В настоящее время модель находится в стадии предварительного просмотра, что означает, что, скорее всего, последует более производительная версия.

Согласно тестам Alibaba, QwQ превосходит o1-preview в тестах AIME и MATH, которые оценивают способности решения математических задач. Он также превосходит o1-mini в GPQA, тесте для научного мышления. QwQ уступает o1 в тестах кодирования LiveCodeBench, но все равно превосходит другие передовые модели, такие как GPT-4o и Claude 3.5 Sonnet. QwQ не поставляется с сопроводительной статьей, описывающей данные или процесс, используемый для обучения модели, что затрудняет воспроизведение результатов модели. Однако, поскольку модель открыта, в отличие от OpenAI o1, ее «процесс мышления» не скрыт и может использоваться для понимания того, как модель рассуждает при решении задач.

Alibaba также выпустила модель под лицензией Apache 2.0, что означает, что ее можно использовать в коммерческих целях.

«Мы обнаружили нечто важное»

Согласно сообщению в блоге, опубликованному вместе с выпуском модели, «Благодаря глубокому исследованию и бесчисленным испытаниям мы обнаружили нечто важное: когда дается время на размышления, вопросы и размышления, понимание математики и программирования моделью расцветает, как цветок, раскрывающийся на солнце... Этот процесс тщательного размышления и самоанализа приводит к замечательным прорывам в решении сложных проблем».

Это очень похоже на то, что мы знаем о том, как работают модели рассуждений. Генерируя больше токенов и просматривая свои предыдущие ответы, модели с большей вероятностью исправляют потенциальные ошибки. Marco-o1, еще одна модель рассуждений, недавно выпущенная Alibaba, также может содержать намеки на то, как может работать QwQ. Marco-o1 использует поиск по дереву Монте-Карло (MCTS) и саморефлексию во время вывода для создания различных ветвей рассуждений и выбора лучших ответов. Модель была обучена на смеси примеров цепочки мыслей (CoT) и синтетических данных, сгенерированных с помощью алгоритмов MCTS.

Alibaba указывает, что QwQ все еще имеет ограничения, такие как смешивание языков или застревание в циклических рассуждениях. Модель доступна для загрузки на Hugging Face, а онлайн-демонстрацию можно найти на Hugging Face Spaces.

Эпоха LLM уступает место LRM: большим моделям рассуждений

Выпуск o1 вызвал растущий интерес к созданию LRM, хотя о том, как работает модель под капотом, известно немного, кроме использования шкалы времени вывода для улучшения ответов модели.

Сейчас у o1 есть несколько китайских конкурентов. Китайская лаборатория искусственного интеллекта DeepSeek недавно выпустила R1-Lite-Preview, своего конкурента o1, который в настоящее время доступен только через интерфейс онлайн-чата компании. Сообщается, что R1-Lite-Preview превосходит o1 по нескольким ключевым показателям.

Еще одна недавно выпущенная модель — LLaVA-o1, разработанная исследователями из нескольких университетов Китая, которая привносит парадигму рассуждений во время вывода в модели языка зрения с открытым исходным кодом (VLM).

Внимание к LRM приходится на время неопределенности относительно будущего законов масштабирования моделей. Отчеты показывают, что лаборатории ИИ, такие как OpenAI, Google DeepMind и Anthropic, получают убывающую отдачу от обучения более крупных моделей. А создание больших объемов качественных данных для обучения становится все более сложным, поскольку модели уже обучаются на триллионах токенов, собранных из Интернета.

Между тем, шкала времени вывода предлагает альтернативу, которая может обеспечить следующий прорыв в улучшении возможностей следующего поколения моделей ИИ. Есть сообщения, что OpenAI использует o1 для генерации синтетических данных рассуждений для обучения следующего поколения своих LLM. Выпуск открытых моделей рассуждений, вероятно, будет стимулировать прогресс и сделает эту область более конкурентоспособной.

0 комментариев

Вас могут заинтересовать