Главная Технологическая индустрия Бывший DeepSeeker и его коллеги представили новый ...

Бывший DeepSeeker и его коллеги представили новый метод обучения надежных агентов ИИ: RAGEN

По мнению многих экспертов, 2025 год должен был стать годом агентов ИИ — реализаций ИИ для конкретных задач, работающих на основе ведущих крупных языковых и мультимодальных моделей (LLM), таких как предлагаемые OpenAI, Anthropic, Google и DeepSeek.

Но пока что большинство агентов ИИ остаются в заточении в качестве экспериментальных пилотов в своего рода корпоративном чистилище, согласно недавнему опросу, проведенному VentureBeat в социальной сети X. Помощь может быть на подходе: совместная команда из Северо-Западного университета, Microsoft, Стэнфорда и Вашингтонского университета — включая бывшего исследователя DeepSeek по имени Цзыхан Ван, в настоящее время завершающего докторскую диссертацию по компьютерным наукам в Северо-Западном университете — представила RAGEN, новую систему для обучения и оценки агентов ИИ, которая, как они надеются, сделает их более надежными и менее хрупкими для реального использования на корпоративном уровне.

В отличие от статических задач, таких как решение математических задач или генерация кода, RAGEN фокусируется на многооборотных интерактивных настройках, где агенты должны адаптироваться, запоминать и рассуждать в условиях неопределенности.

Созданная на основе пользовательского фреймворка RL под названием StarPO (State-Thinking-Actions-Reward Policy Optimization), система исследует, как LLM могут учиться на опыте, а не на запоминании. Основное внимание уделяется целым траекториям принятия решений, а не только одношаговым ответам.

StarPO работает в две чередующиеся фазы: этап развертывания, на котором LLM генерирует полные последовательности взаимодействия, руководствуясь рассуждениями, и этап обновления, на котором модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Эта структура поддерживает более стабильный и интерпретируемый цикл обучения по сравнению со стандартными подходами к оптимизации политики.

Авторы реализовали и протестировали фреймворк, используя тонко настроенные варианты моделей Qwen от Alibaba, включая Qwen 1.5 и Qwen 2.5. Эти модели служили базовыми LLM для всех экспериментов и были выбраны за их открытые веса и надежные возможности следования инструкциям. Это решение обеспечило воспроизводимость и последовательные сравнения исходных значений в символических задачах.

Вот как они это сделали и что обнаружили:

Ловушка эха: как вознаграждения за обучение с подкреплением приводят к потере рассуждений LLM

Ван резюмировал основную проблему в широко распространенной теме X: Почему ваше обучение RL всегда терпит крах?

По словам команды, агенты LLM изначально генерируют символические, хорошо обоснованные ответы. Но со временем системы RL имеют тенденцию вознаграждать сокращения, что приводит к повторяющемуся поведению, которое ухудшает общую производительность — шаблон, который они называют «ловушкой эха».

Эта регрессия обусловлена петлями обратной связи, где определенные фразы или стратегии получают высокие вознаграждения на раннем этапе, поощряя чрезмерное использование и подавляя исследование.

Ван отмечает, что симптомы измеримы: обрывы дисперсии вознаграждения, градиентные пики и исчезающие следы рассуждений.

Тестовые среды RAGEN не совсем корпоративного уровня

Чтобы изучить это поведение в контролируемой обстановке, RAGEN оценивает агентов в трех символических средах:

Bandit: одношаговая стохастическая задача, которая проверяет символическое рассуждение о риске и вознаграждении.

Sokoban: многошаговая детерминированная головоломка, включающая необратимые решения.

Frozen Lake: стохастическая многошаговая задача, требующая адаптивного планирования.

Каждая среда разработана так, чтобы минимизировать реальные априорные данные и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения.

Например, в среде Bandit агентам говорят, что руки Dragon и Phoenix представляют разные распределения вознаграждения.

Вместо того, чтобы им напрямую сообщали вероятности, они должны рассуждать символически — например, интерпретировать Dragon как «силу», а Phoenix как «надежду» — чтобы предсказать результаты. Такая настройка заставляет модель генерировать объяснимые, аналогичные рассуждения.

Стабилизация обучения с подкреплением с помощью StarPO-S

Для решения проблемы коллапса обучения исследователи представили StarPO-S, стабилизированную версию исходной структуры. StarPO-S включает три ключевых вмешательства:

Фильтрация развертывания на основе неопределенности: приоритезация развертываний, где агент показывает неопределенность результата.

Устранение штрафа KL: разрешение модели более свободно отклоняться от своей первоначальной политики и исследовать новые модели поведения.

Асимметричное отсечение PPO: усиление траекторий с высоким вознаграждением больше, чем с низким вознаграждением, для ускорения обучения.

Эти изменения задерживают или устраняют коллапс обучения и повышают производительность по всем трем задачам. Как выразился Ван: «StarPO-S… работает по всем трем задачам. Снимает коллапс. Лучшее вознаграждение».