В новом исследовании Hugging Face исследователи продемонстрировали, как можно настроить малые языковые модели (SLM) так, чтобы они превосходили гораздо более крупные модели. Их результаты показывают, что модель Llama 3 с параметрами 3B может превзойти версию модели 70B в сложных математических задачах.
Hugging Face полностью задокументировал весь процесс и предоставляет дорожную карту для предприятий, которые хотят создавать собственные индивидуальные модели рассуждений. Масштабирование вычислений во время теста
Работа вдохновлена OpenAI o1, которая использует дополнительное «мышление» для решения сложных математических, кодирующих и рассуждающих задач.
Основная идея таких моделей, как o1, заключается в масштабировании «вычислений во время теста», что фактически означает использование большего количества вычислительных циклов во время вывода для тестирования и проверки различных ответов и путей рассуждений перед выдачей окончательного ответа. Масштабирование вычислений во время теста особенно полезно, когда недостаточно памяти для запуска большой модели.
Поскольку o1 является частной моделью, а OpenAI хранит молчание о ее внутренних принципах работы, исследователи размышляют о том, как она работает, и пытаются провести обратную разработку процесса. Уже существует несколько открытых альтернатив o1.
Работа Hugging Face основана на исследовании DeepMind, опубликованном в августе, в котором изучаются компромиссы между временем вывода и предварительным обучением. Исследование предоставляет комплексные рекомендации по балансировке обучения и вычислений вывода для получения наилучших результатов при фиксированном бюджете.
Помимо использования дополнительных вычислений во время вывода, успех метода зависит от двух ключевых компонентов: модели вознаграждения, которая оценивает ответы SLM, и алгоритма поиска, который оптимизирует путь, который он проходит для уточнения своих ответов. Различные алгоритмы рассуждений
Самый простой способ использования масштабирования во время теста — это «голосование большинством», при котором одна и та же подсказка отправляется модели несколько раз, и выбирается получивший наибольшее количество голосов. В простых задачах голосование большинством может оказаться полезным, но его результаты быстро выходят на плато при решении сложных задач или задач рассуждения, где ошибки постоянны на протяжении поколений.
Более продвинутый метод рассуждений — «Лучший из N». В этом методе SLM генерирует несколько ответов, но вместо голосования большинством используется модель вознаграждения для оценки ответов и выбора лучшего из них. «Взвешенный лучший из N», более тонкая версия этого метода, учитывает согласованность, чтобы выбирать ответы, которые являются как уверенными, так и встречаются чаще других.
Исследователи использовали «модель вознаграждения за процесс» (PRM), которая оценивает ответ SLM не только по окончательному ответу, но и по многочисленным этапам, через которые он проходит, чтобы достичь его. Их эксперименты показали, что взвешенный лучший из N и PRM приблизили Llama-3.2 1B к уровню Llama-3.2 8B на сложном тесте MATH-500. Добавление поиска
Чтобы еще больше улучшить производительность модели, исследователи добавили алгоритмы поиска в процесс рассуждений модели. Вместо того чтобы генерировать ответ за один проход, они использовали «поиск луча», алгоритм, который направляет процесс ответа модели шаг за шагом.
На каждом шаге SLM генерирует несколько частичных ответов. Алгоритм поиска использует модель вознаграждения для оценки ответов и выбирает подмножество, которое стоит дальнейшего изучения. Процесс повторяется до тех пор, пока модель не исчерпает свой бюджет вывода или не достигнет правильного ответа. Таким образом, бюджет вывода можно сузить, чтобы сосредоточиться на наиболее многообещающих ответах.
Исследователи обнаружили, что, хотя лучевой поиск улучшает производительность модели на сложных задачах, он, как правило, уступает другим методам на простых задачах. Чтобы решить эту проблему, они добавили еще два элемента в свою стратегию вывода.
Первым был Diverse Verifier Tree Search (DVTS), вариант лучевого поиска, который гарантирует, что SLM не застрянет на ложных путях рассуждений и диверсифицирует свои ветви ответа. Во-вторых, они разработали «вычислительно-оптимальную стратегию масштабирования», как предлагается в статье DeepMind, которая динамически выбирает лучшую стратегию масштабирования во время теста на основе сложности входной задачи.
Сочетание этих методов позволило Llama-3.2 1B превзойти свой вес и превзойти модель 8B со значительным отрывом. Они также обнаружили, что стратегия масштабируема, и при применении к Llama-3.2 3B они смогли превзойти гораздо более крупную модель 70B. Пока не идеальное решение
Масштабирование вычислений во время теста изменяет динамику затрат на модели. Теперь предприятия могут выбирать, где распределять свои вычислительные ресурсы. Например, если у вас мало памяти или вы можете мириться с более медленным временем отклика, вы можете использовать небольшую модель и тратить больше циклов времени вывода для генерации более точных ответов.
Однако масштабирование во время теста также имеет свои ограничения. Например, в экспериментах, проведенных Hugging Face, исследователи использовали специально обученную модель Llama-3.1-8B в качестве PRM, что требует параллельного запуска двух моделей (даже если она намного более ресурсоэффективна, чем модель 70B). Исследователи признают, что Святой Грааль масштабирования во время теста — это «самопроверка», когда исходная модель проверяет свой собственный ответ, а не полагается на внешнего верификатора. Это открытая область исследований.
0 комментариев