Крупным компаниям критически важно понимать, как работают ИИ-модели, лежащие в основе их приложений и агентов, в реальных условиях. Провести такую оценку бывает сложно из-за непредсказуемости конкретных сценариев использования. Обновленный эталонный тест RewardBench призван дать организациям более точное представление о реальной производительности моделей.
Исследовательский институт искусственного интеллекта Аллена (Allen Institute for AI, Ai2) представил RewardBench 2 — новую версию своего теста для оценочных моделей (reward models). Разработчики утверждают, что он дает более комплексную картину работы моделей и оценивает, насколько их результаты соответствуют целям и стандартам бизнеса.
Как работает оценка?
RewardBench 2 основан на задачах классификации. Он измеряет корреляции в процессе выполнения модели (inference-time) и при ее последующем обучении (downstream training). Основная цель теста — оценка так называемых "моделей вознаграждения" (reward models, RM). Эти модели выступают в роли "судей", анализируя выходные данные больших языковых моделей (LLM) и присваивая им балльную оценку ("вознаграждение"). Эта оценка затем используется для управления процессом обучения с подкреплением на основе обратной связи человека (Reinforcement Learning from Human Feedback, RLHF).
Почему потребовалась вторая версия?
Натан Ламберт, старший научный сотрудник Ai2, пояснил изданию VentureBeat, что первая версия RewardBench справлялась со своей задачей на момент запуска. Однако среда ИИ-моделей развивается стремительно, и тесты должны идти в ногу со временем.
"По мере того как модели вознаграждения становились сложнее, а сценарии их применения — тоньше, мы вместе с сообществом быстро осознали, что первая версия теста не полностью отражает сложность реальных человеческих предпочтений", — заявил Ламберт.
Он добавил, что при создании RewardBench 2 команда сосредоточилась на расширении охвата и глубины оценки: "Мы включили более разнообразные и сложные запросы, а также усовершенствовали методику, чтобы она лучше отражала то, как люди на практике оценивают выводы ИИ". Вторая версия использует ранее не встречавшиеся человеческие запросы, более сложную систему оценки и охватывает новые предметные области.
Оценка "оценщиков": Почему важна совместимость с ценностями
Хотя модели вознаграждения проверяют эффективность других моделей, критически важно, чтобы сами RM соответствовали ценностям компании. В противном случае процесс тонкой настройки (fine-tuning) и обучения с подкреплением может закрепить нежелательное поведение: "галлюцинации" (выдача ложной информации), снижение способности к обобщению или завышенную оценку вредоносных ответов.
RewardBench 2 охватывает шесть ключевых областей:
Фактическая точность (Factuality)
Точное следование инструкциям (Precise Instruction Following)
Математические способности (Math)
Безопасность (Safety)
Фокусировка на задаче (Focus)
Установление связей (Ties - понимание контекста и связей)
Как компаниям использовать RewardBench 2?
"Компаниям следует использовать RewardBench 2 по-разному, в зависимости от их задач, — советует Ламберт. — Если они самостоятельно проводят RLHF, им стоит внедрять лучшие практики и наборы данных от ведущих моделей в свои процессы, потому что модели вознаграждения требуют специфических рецептов обучения. Для масштабирования во время выполнения модели (inference-time) или фильтрации данных RewardBench 2 показал, что они могут выбрать лучшую модель для своей предметной области и увидеть соответствующую производительность".
Субъективность оценок и преимущества RewardBench
Ламберт подчеркнул, что тесты, подобные RewardBench, позволяют пользователям оценивать модели по параметрам, наиболее важным для них, вместо того чтобы полагаться на узкий, "универсальный" балл. Понятие "производительности", которое пытаются измерить многие методы оценки, крайне субъективно: хороший ответ модели сильно зависит от контекста и целей пользователя, а человеческие предпочтения очень многообразны.
Контекст и конкуренция
Ai2 выпустил первую версию RewardBench в марте 2024 года, назвав ее первым специализированным эталонным тестом и рейтингом для моделей вознаграждения. С тех пор появились и другие методы: исследователи Meta (FAIR) представили reWordBench, а DeepSeek выпустил новую технику под названием Self-Principled Critique Tuning для создания более "умных" и масштабируемых RM.
Результаты тестирования
Поскольку RewardBench 2 — это обновление, Ai2 протестировал как существующие, так и вновь обученные модели, чтобы проверить, сохранят ли лидеры свои позиции. В тестировании участвовали различные модели, включая версии Gemini, Claude, GPT-4.1, Llama-3.1, а также Qwen, Skywork и собственная разработка института — Tulu.
Результаты показали, что более крупные модели вознаграждения показывают лучшие результаты в тесте, так как их базовые модели мощнее. В целом, сильнее всего проявили себя варианты Llama-3.1 Instruct. Данные Skywork оказались "особенно полезны" в областях фокусировки и безопасности, а Tulu показала хорошие результаты по фактической точности.
0 комментариев