Языковые модели могут лучше обобщать, если им предоставить возможность создавать собственные решения, показывает новое исследование Гонконгского университета и Калифорнийского университета в Беркли.
Языковые модели могут лучше обобщать, если им предоставить возможность создавать собственные решения, показывает новое исследование Гонконгского университета и Калифорнийского университета в Беркли. Результаты, которые применимы как к большим языковым моделям (LLM), так и к моделям языка видения (VLM), бросают вызов одному из основных убеждений сообщества LLM — что модели требуют вручную маркированных обучающих примеров. Фактически, исследователи показывают, что обучение моделей на слишком большом количестве вручную созданных примеров может иметь неблагоприятные последствия для способности модели обобщать невидимые данные.
SFT против RL в обучении моделей
Долгое время контролируемая тонкая настройка (SFT) была золотым стандартом для обучения LLM и VLM. После того, как модель предварительно обучена на необработанных текстовых и графических данных, компании и лаборатории ИИ обычно проводят ее пост-обучение на большом наборе данных вручную созданных примеров в формате вопрос/ответ или запрос/ответ. После SFT модель может пройти дополнительные этапы обучения, такие как обучение с подкреплением на основе обратной связи с человеком (RLHF), где модель пытается изучить неявные предпочтения человека на основе таких сигналов, как рейтинги ответов или симпатии/антипатии к ответам модели.SFT полезен для управления поведением модели в соответствии с задачами, для которых ее разработали создатели модели. Однако сбор данных — медленный и дорогостоящий процесс, который является узким местом для многих компаний и лабораторий.
Недавние разработки в области LLM вызвали интерес к подходам чистого обучения с подкреплением (RL), когда модели дается задача и она обучается самостоятельно, без вручную созданных примеров. Наиболее важным примером является DeepSeek-R1, конкурент OpenAI o1, который в основном использовал обучение с подкреплением для обучения сложным задачам рассуждения.
Обобщение против запоминания
Одной из ключевых проблем систем машинного обучения (ML) является переобучение, когда модель хорошо работает на своих обучающих данных, но не может обобщить на невидимые примеры. Во время обучения модель создает ложное впечатление, что она изучила задачу, хотя на самом деле она просто запомнила свои обучающие примеры. В больших и сложных моделях ИИ может быть сложно отделить обобщение от запоминания.
Новое исследование фокусируется на обобщении способностей обучения RL и SFT в задачах текстового и визуального рассуждения. Для текстового рассуждения LLM, обученный по набору правил, должен уметь обобщать варианты этих правил. Последствия для реальных приложений
Хотя их эксперименты показывают, что RL лучше обобщает, чем SFT, исследователи также обнаружили, что SFT полезен для стабилизации выходного формата модели и имеет решающее значение для того, чтобы RL достигал прироста производительности. Исследователи обнаружили, что без начального этапа SFT обучение RL не достигало желаемых результатов.
Это немного отличается от результатов, полученных DeepSeek-R1-Zero, который был обучен на чистом RL. Исследователи предполагают, что это может быть связано с другой базовой моделью, которую они использовали в своих экспериментах.
Очевидно, что в подходах с большим количеством RL есть большой неиспользованный потенциал. Для вариантов использования, которые имеют проверяемые результаты, предоставление моделям возможности обучаться самостоятельно часто может привести к непредвиденным результатам, которые люди не смогли бы создать сами. Это может оказаться очень полезным в условиях, когда создание примеров вручную может быть утомительным и дорогим.
0 комментариев