бургерЛого хедера
Поиск
avatar

DeepCoder обеспечивает высочайшую производительность кодирования в эффективной открытой модели 14B

Исследователи Together AI и Agentica выпустили DeepCoder-14B, новую модель кодирования, которая обеспечивает впечатляющую производительность, сопоставимую с ведущими фирменными моделями, такими как o3-mini от OpenAI.

image

Эта модель, созданная на основе DeepSeek-R1, обеспечивает большую гибкость для интеграции высокопроизводительной генерации кода и возможностей рассуждения в реальные приложения. Важно отметить, что команды полностью открыли исходный код модели, ее обучающих данных, кода, журналов и системных оптимизаций, что может помочь исследователям улучшить свою работу и ускорить прогресс. Конкурентные возможности кодирования в меньшем пакете

Эксперименты исследовательской группы показывают, что DeepCoder-14B демонстрирует высокие результаты в нескольких сложных тестах кодирования, включая LiveCodeBench (LCB), Codeforces и HumanEval+.

«Наша модель демонстрирует высокие результаты во всех тестах кодирования… сопоставимые с производительностью o3-mini (low) и o1», — пишут исследователи в сообщении в блоге, описывающем модель.

Интересно, что, несмотря на то, что модель была обучена в основном на задачах кодирования, она демонстрирует улучшенные математические рассуждения, набрав 73,8% на бенчмарке AIME 2024, что на 4,1% лучше, чем у ее базовой модели (DeepSeek-R1-Distill-Qwen-14B). Это говорит о том, что навыки рассуждения, полученные с помощью RL на коде, можно эффективно обобщить и на другие области. Самым поразительным аспектом является достижение этого уровня производительности всего с 14 миллиардами параметров. Это делает DeepCoder значительно меньше и потенциально более эффективным в работе, чем многие передовые модели.

Инновации, влияющие на производительность DeepCoder

При разработке модели исследователи решили некоторые из ключевых проблем в обучении моделей кодирования с использованием обучения с подкреплением (RL).

Первой проблемой было курирование данных обучения. Обучение с подкреплением требует надежных сигналов вознаграждения, указывающих на то, что выходные данные модели верны. Как отмечают исследователи, «в отличие от математики, где в Интернете легко доступны обильные высококачественные, проверяемые данные, область кодирования страдает от относительной нехватки таких данных».

Чтобы решить эту проблему, команда DeepCoder внедрила строгий конвейер, который собирает примеры из разных наборов данных и фильтрует их на предмет достоверности, сложности и дублирования. Этот процесс дал 24 000 высококачественных задач, обеспечив прочную основу для эффективного обучения с подкреплением.

Команда также разработала простую функцию вознаграждения, которая выдает положительный сигнал только в том случае, если сгенерированный код проходит все выборочные модульные тесты для задачи в течение определенного срока. В сочетании с высококачественными примерами обучения эта ориентированная на результат система вознаграждения не позволяет модели изучать трюки, такие как печать запомненных ответов для публичных тестов или оптимизация для простых пограничных случаев без решения основной проблемы.

Основной алгоритм обучения модели основан на оптимизации групповой относительной политики (GRPO), алгоритме обучения с подкреплением, который оказался очень успешным в DeepSeek-R1. Однако команда внесла несколько изменений в алгоритм, чтобы сделать его более стабильным и позволить модели продолжать совершенствоваться по мере увеличения времени обучения.

0 комментариев

Вас могут заинтересовать