По мнению многих экспертов, 2025 год должен был стать годом агентов ИИ — реализаций ИИ для конкретных задач, работающих на основе ведущих крупных языковых и мультимодальных моделей (LLM), таких как предлагаемые OpenAI, Anthropic, Google и DeepSeek.
Но пока что большинство агентов ИИ остаются в заточении в качестве экспериментальных пилотов в своего рода корпоративном чистилище, согласно недавнему опросу, проведенному VentureBeat в социальной сети X. Помощь может быть на подходе: совместная команда из Северо-Западного университета, Microsoft, Стэнфорда и Вашингтонского университета — включая бывшего исследователя DeepSeek по имени Цзыхан Ван, в настоящее время завершающего докторскую диссертацию по компьютерным наукам в Северо-Западном университете — представила RAGEN, новую систему для обучения и оценки агентов ИИ, которая, как они надеются, сделает их более надежными и менее хрупкими для реального использования на корпоративном уровне.
В отличие от статических задач, таких как решение математических задач или генерация кода, RAGEN фокусируется на многооборотных интерактивных настройках, где агенты должны адаптироваться, запоминать и рассуждать в условиях неопределенности.
Созданная на основе пользовательского фреймворка RL под названием StarPO (State-Thinking-Actions-Reward Policy Optimization), система исследует, как LLM могут учиться на опыте, а не на запоминании. Основное внимание уделяется целым траекториям принятия решений, а не только одношаговым ответам.
StarPO работает в две чередующиеся фазы: этап развертывания, на котором LLM генерирует полные последовательности взаимодействия, руководствуясь рассуждениями, и этап обновления, на котором модель оптимизируется с использованием нормализованных кумулятивных вознаграждений. Эта структура поддерживает более стабильный и интерпретируемый цикл обучения по сравнению со стандартными подходами к оптимизации политики.
Авторы реализовали и протестировали фреймворк, используя тонко настроенные варианты моделей Qwen от Alibaba, включая Qwen 1.5 и Qwen 2.5. Эти модели служили базовыми LLM для всех экспериментов и были выбраны за их открытые веса и надежные возможности следования инструкциям. Это решение обеспечило воспроизводимость и последовательные сравнения исходных значений в символических задачах.
Вот как они это сделали и что обнаружили:
Ловушка эха: как вознаграждения за обучение с подкреплением приводят к потере рассуждений LLM
Ван резюмировал основную проблему в широко распространенной теме X: Почему ваше обучение RL всегда терпит крах?
По словам команды, агенты LLM изначально генерируют символические, хорошо обоснованные ответы. Но со временем системы RL имеют тенденцию вознаграждать сокращения, что приводит к повторяющемуся поведению, которое ухудшает общую производительность — шаблон, который они называют «ловушкой эха».
Эта регрессия обусловлена петлями обратной связи, где определенные фразы или стратегии получают высокие вознаграждения на раннем этапе, поощряя чрезмерное использование и подавляя исследование.
Ван отмечает, что симптомы измеримы: обрывы дисперсии вознаграждения, градиентные пики и исчезающие следы рассуждений.
Тестовые среды RAGEN не совсем корпоративного уровня
Чтобы изучить это поведение в контролируемой обстановке, RAGEN оценивает агентов в трех символических средах:
Bandit: одношаговая стохастическая задача, которая проверяет символическое рассуждение о риске и вознаграждении.
Sokoban: многошаговая детерминированная головоломка, включающая необратимые решения.
Frozen Lake: стохастическая многошаговая задача, требующая адаптивного планирования.
Каждая среда разработана так, чтобы минимизировать реальные априорные данные и сосредоточиться исключительно на стратегиях принятия решений, разработанных во время обучения.
Например, в среде Bandit агентам говорят, что руки Dragon и Phoenix представляют разные распределения вознаграждения.
Вместо того, чтобы им напрямую сообщали вероятности, они должны рассуждать символически — например, интерпретировать Dragon как «силу», а Phoenix как «надежду» — чтобы предсказать результаты. Такая настройка заставляет модель генерировать объяснимые, аналогичные рассуждения.
Стабилизация обучения с подкреплением с помощью StarPO-S
Для решения проблемы коллапса обучения исследователи представили StarPO-S, стабилизированную версию исходной структуры. StarPO-S включает три ключевых вмешательства:
Фильтрация развертывания на основе неопределенности: приоритезация развертываний, где агент показывает неопределенность результата.
Устранение штрафа KL: разрешение модели более свободно отклоняться от своей первоначальной политики и исследовать новые модели поведения.
Асимметричное отсечение PPO: усиление траекторий с высоким вознаграждением больше, чем с низким вознаграждением, для ускорения обучения.
Эти изменения задерживают или устраняют коллапс обучения и повышают производительность по всем трем задачам. Как выразился Ван: «StarPO-S… работает по всем трем задачам. Снимает коллапс. Лучшее вознаграждение».
0 комментариев