5 сентября 2024 года Мэтт Шумер, соучредитель и генеральный директор стартапа Hyperwrite AI (также известного как OthersideAI), опубликовал в социальной сети X сенсационную новость о том, что он доработал версию открытой модели языка Meta Llama 3.1-70B в еще более производительную модель большого языка (LLM), известную как Reflection 70B - настолько производительную, что, согласно опубликованным им результатам бенчмарк-тестов сторонних разработчиков, она стала «лучшей в мире моделью с открытым исходным кодом», как утверждается в его сообщении.
Исследователи указали на расхождения между объявленными результатами бенчмарков и их независимыми тестами, что вызвало волну критики на таких социальных платформах, как Reddit и X.
В ответ на эти опасения Шумер пообещал, что проведет анализ проблем вместе с Сахилом Чодхари, основателем Glaive, ИИ-стартапа, на синтетических данных которого, по словам Шумера, он обучал Reflection 70B, и в который, как выяснилось позже, он вложил, по его словам, небольшую сумму.
Теперь, спустя почти месяц, вчера вечером Чодари опубликовал в своем блоге Glaive AI отчет о модели Reflection 70B и предоставил ресурсы для сообщества ИИ с открытым исходным кодом, чтобы они могли самостоятельно проверить модель и процесс обучения. По его словам, хотя ему не удалось воспроизвести все те же самые эталоны, он «обнаружил ошибку в исходном коде», в результате чего некоторые результаты оказались выше, чем те, которые он обнаружил в ходе недавних тестов Reflection 70B. Однако результаты других бенчмарков оказались выше, чем раньше, что добавляет загадок.Как написал Чодхари в своем посте:
«Мы допустили много ошибок в том, как запустили модель и справились с проблемами, о которых сообщало сообщество. Я понимаю, что подобные вещи оказывают значительное негативное влияние на экосистему открытого кода, и хотел бы извиниться за это. Я надеюсь, что это внесет некоторую ясность в произошедшее и станет шагом в направлении восстановления утраченного доверия. Я выпустил все активы, необходимые для независимой проверки бенчмарков и использования этой модели».
Обмен артефактами модели
Чтобы восстановить прозрачность и доверие, Чаудхари поделился несколькими ресурсами, которые помогут сообществу воспроизвести эталоны Reflection 70B. К ним относятся:
Весовые коэффициенты модели: Доступны на сайте Hugging Face, где представлена предварительно обученная версия Reflection 70B.
Данные обучения: Выложены в открытый доступ, что позволяет проводить независимые тесты на наборе данных, используемом для точной настройки модели.
Скрипты обучения и код оценки: Эти скрипты, размещенные на GitHub, позволяют воспроизвести процесс обучения и оценки модели.
Эти ресурсы призваны прояснить, как разрабатывалась модель, и предоставить сообществу возможность подтвердить первоначальные заявления о производительности.Воспроизведение эталонных результатов
В своем отчете Чаудхари объяснил, что основная проблема с воспроизведением первоначальных результатов бенчмарков возникла из-за ошибки в коде оценки. Эта ошибка приводила к завышению баллов в некоторых задачах, таких как MATH и GSM8K, из-за ошибки в том, как система обрабатывала ответы от внешнего API. Исправленные бенчмарки показывают немного более низкую, но все еще высокую производительность по сравнению с первоначальным отчетом.
Обновленные результаты бенчмарка Reflection 70B выглядят следующим образом:
MMLU: 90,94 %
GPQA: 55,6%
HumanEval: 89,02 %
MATH: 70,8%
GSM8K: 95.22%
IFEVAL: 87.63%
Сравните это с первоначально заявленными показателями:
MMLU: 89,9%
GPQA: 55,3%
HumanEval: 91%
MATH: 79,7%
GSM8K: 99,2%
IFEVAL: 90,13%
Хотя пересмотренные оценки не столь высоки, как первоначально заявленные, Чодхари утверждает, что они более точно отражают возможности модели.
Он также устранил опасения по поводу загрязнения наборов данных, подтвердив, что тесты не выявили значительного пересечения между обучающими данными и эталонными наборами.
0 комментариев