Компания Microsoft удваивает потенциал малых языковых моделей (SLM), представив rStar-Math — новую методику рассуждений, которую можно применять к малым моделям для повышения их производительности при решении математических задач с использованием методов рассуждений.
Пока еще находившаяся на этапе исследования — как указано в статье, опубликованной на сайте предварительного обзора arXiv.org и приписанной восьми авторам из Microsoft, Пекинского университета и Университета Цинхуа в Китае — эта методика была применена к нескольким различным моделям с меньшим исходным кодом, включая собственную модель Phi-3 mini от Microsoft, Qwen-1.5B от Alibaba (модель с 1,5 миллиардами параметров) и Qwen-7B (модель с 7 миллиардами параметров). Она показала улучшенную производительность на всех из них, даже превзойдя предыдущую самую продвинутую модель OpenAI в стороннем эталонном тесте MATH (решение текстовых задач) из 12 500 вопросов, охватывающих различные разделы, такие как геометрия и алгебра, и все уровни сложности.
Почему частные вычисления должны быть частью вашей стратегии ИИ - AI Impact Tour 2024Почему частные вычисления должны быть частью вашей стратегии ИИ - AI Impact Tour 2024
В конечном итоге, согласно сообщению на Hugging Face, исследователи планируют сделать свой код и данные доступными на Github по адресу https://github.com/microsoft/rStar, хотя один из авторов статьи, Ли Лина Чжан, написал в комментариях к сообщению на Hugging Face, что команда «все еще проходит внутреннюю проверку для выпуска с открытым исходным кодом». Таким образом, «репозиторий пока остается закрытым. Пожалуйста, оставайтесь с нами!»
Члены сообщества выразили энтузиазм, назвав инновации «впечатляющими» и похвалив сочетание поиска по дереву Монте-Карло (MCTS) с пошаговым обоснованием. Один комментатор подчеркнул простоту и полезность использования Q-значений для пошаговой оценки, в то время как другие размышляли о будущих приложениях в геометрических доказательствах и символических обоснованиях.
Эта новость последовала сразу за открытием исходного кода модели Microsoft Phi-4, меньшей системы искусственного интеллекта с 14 миллиардами параметров, которая теперь доступна на Hugging Face по разрешительной лицензии MIT.
В то время как выпуск Phi-4 расширил доступ к высокопроизводительным малым моделям, rStar-Math демонстрирует специализированный подход: использование меньших систем искусственного интеллекта для достижения самых современных результатов в математических рассуждениях.
rStar-Math работает, используя несколько различных моделей и компонентов, чтобы помочь целевой небольшой модели «саморазвиваться»
Ключ к rStar-Math заключается в том, что он использует метод Монте-Карло-дерева поиска (MCTS), который имитирует человеческое «глубокое мышление» путем итеративного уточнения пошаговых решений математических задач.
Исследователи использовали MCTS, потому что он «разбивает сложные математические задачи на более простые одношаговые задачи генерации, снижая сложность» для меньших моделей.
Однако они не просто применили MCTS, как это делали другие исследователи. Вместо этого, в блестящем ударе, они также просят обученную ими модель всегда выводить свои шаги рассуждения «цепочки мыслей» как в виде описаний на естественном языке, так и в виде кода Python.
Они потребовали, чтобы модель включала ответы на естественном языке в виде комментариев кода Python, и только те выходные данные, которые используют Python, будут использоваться для обучения модели.
Исследователи также обучили «политическую модель» для генерации шагов математического рассуждения и модель предпочтений процесса (PPM) для выбора наиболее перспективных шагов решения задач и улучшили их обе в течение четырех раундов «саморазвития», причем каждая модель улучшала другую.
Исследователи заявили, что в качестве своих исходных данных они использовали «747 000 математических текстовых задач из общедоступных источников» вместе со своими решениями, но создали новые шаги для их решения с помощью двух моделей, описанных выше.
Рекордные результаты
После четырех раундов саморазвития rStar-Math достигла значительных результатов:
• В тесте MATH точность модели Qwen2.5-Math-7B подскочила с 58,8% до 90,0%, превзойдя OpenAI o1-preview.
• На Американском экзамене по математике (AIME) она решила 53,3% задач, войдя в число 20% лучших среди школьников.
Эти результаты подчеркивают мощь SLM в обработке сложных математических рассуждений, в которых традиционно доминируют более крупные системы.
Чем меньше, тем лучше?
В последние годы инновации в области ИИ в значительной степени были обусловлены масштабированием языковых моделей, при этом увеличение параметров рассматривалось как способ повышения производительности. Однако высокие затраты, связанные с этими массивными моделями, от вычислительных ресурсов до энергопотребления, вызывают вопросы о масштабируемости.
Microsoft предлагает альтернативный путь, сосредоточившись на эффективности. Выпуск rStar-Math еще больше подчеркивает эту приверженность, демонстрируя, как SLM могут конкурировать — а в некоторых случаях и превосходить — возможности своих более крупных аналогов.
Двойные выпуски Microsoft Phi-4 и статьи rStar-Math предполагают, что компактные специализированные модели могут стать мощными альтернативами крупнейшим системам отрасли.
Более того, превосходя более крупных конкурентов в ключевых тестах, эти модели бросают вызов представлению о том, что больше всегда лучше. Они открывают двери для организаций среднего размера и академических исследователей для доступа к передовым возможностям без финансового или экологического бремени, связанного с массивными моделями.
0 комментариев