OpenAI постепенно приглашает избранных пользователей протестировать совершенно новый набор моделей рассуждений под названием o3 и o3 mini, являющихся преемниками моделей o1 и o1-mini, полная версия которых была выпущена в начале этого месяца.
OpenAI o3, названный так, чтобы избежать проблем с авторскими правами с телефонной компанией O2 и потому что генеральный директор Сэм Альтман говорит, что компания «имеет традицию быть действительно плохой в названиях», был анонсирован в последний день прямых трансляций «12 дней OpenAI» сегодня. Альтман сказал, что две новые модели будут первоначально предоставлены избранным сторонним исследователям для тестирования безопасности, при этом o3-mini ожидается к концу января 2025 года, а o3 «вскоре после этого».
«Мы рассматриваем это как начало следующего этапа ИИ, где вы можете использовать эти модели для выполнения все более сложных задач, требующих много рассуждений», — сказал Альтман. «В последний день этого мероприятия мы подумали, что было бы забавно перейти от одной пограничной модели к следующей пограничной модели».
Анонс появился всего через день после того, как Google представила и позволила общественности использовать свою новую модель Gemini 2.0 Flash Thinking, еще одну конкурирующую модель «рассуждений», которая, в отличие от серии OpenAI o1, позволяет пользователям видеть шаги в ее «мыслительном» процессе, задокументированные в текстовых маркерах.
Выпуск Gemini 2.0 Flash Thinking, а теперь и анонс o3 показывают, что конкуренция между OpenAI и Google, а также более широким кругом поставщиков моделей ИИ, вступает в новую и интенсивную фазу, поскольку они предлагают не только LLM или мультимодальные модели, но и расширенные модели рассуждений. Они могут быть более применимы к более сложным проблемам в науке, математике, технологиях, физике и многом другом.
Лучшая производительность в сторонних тестах на данный момент
Альтман также сказал, что модель o3 «невероятна в кодировании», и тесты, предоставленные OpenAI, подтверждают это, показывая, что модель превосходит даже производительность o1 в задачах программирования.
• Исключительная производительность кодирования: o3 превосходит o1 на 22,8 процентных пункта на SWE-Bench Verified и достигает рейтинга Codeforces 2727, что превышает оценку главного ученого OpenAI в 2665.
• Математическое и естественнонаучное мастерство: o3 набирает 96,7% на экзамене AIME 2024, пропустив всего один вопрос, и достигает 87,7% на GPQA Diamond, намного превосходя результаты экспертов-людей.
• Frontier Benchmarks: модель устанавливает новые рекорды на сложных тестах, таких как EpochAI Frontier Math, решая 25,2% задач, где ни одна другая модель не превышает 2%. На тесте ARC-AGI o3 утроил оценку o1 и превзошел 85% (что было подтверждено вживую командой ARC Prize), что является важной вехой в концептуальном мышлении.
Совещательное согласование
Наряду с этими достижениями OpenAI подтвердила свою приверженность безопасности и согласованию.
Компания представила новое исследование по делиберативному выравниванию, методу, который помог сделать o1 самой надежной и выравниваемой моделью на сегодняшний день.
Этот метод встраивает в модели спецификации безопасности, написанные человеком, что позволяет им явно рассуждать об этих политиках перед генерацией ответов.
Стратегия направлена на решение распространенных проблем безопасности в LLM, таких как уязвимость к атакам с использованием джейлбрейка и чрезмерное отклонение безобидных подсказок, путем оснащения моделей рассуждениями цепочки мыслей (CoT). Этот процесс позволяет моделям вспоминать и применять спецификации безопасности динамически во время вывода.
Дилериверсионное выравнивание улучшает предыдущие методы, такие как обучение с подкреплением на основе обратной связи с человеком (RLHF) и конституционный ИИ, которые полагаются на спецификации безопасности только для генерации меток, а не встраивают политики непосредственно в модели.
Благодаря тонкой настройке LLM на подсказки, связанные с безопасностью, и связанные с ними спецификации, этот подход создает модели, способные к рассуждениям на основе политик, не полагаясь в значительной степени на данные, маркированные человеком.
Результаты, представленные исследователями OpenAI в новой, нерецензируемой статье, показывают, что этот метод повышает производительность в тестах безопасности, снижает вредоносные результаты и обеспечивает лучшее соблюдение правил контента и стиля.
Основные выводы подчеркивают достижения модели o1 по сравнению с предшественниками, такими как GPT-4o и другими современными моделями. Сознательное согласование позволяет серии o1 преуспеть в сопротивлении джейлбрейкам и предоставлении безопасных завершений, минимизируя при этом чрезмерные отказы в безобидных подсказках. Кроме того, метод облегчает обобщение вне распределения, демонстрируя надежность в многоязычных и закодированных сценариях джейлбрейка. Эти улучшения соответствуют цели OpenAI — сделать системы ИИ более безопасными и более интерпретируемыми по мере роста их возможностей.
Это исследование также сыграет ключевую роль в согласовании o3 и o3-mini, гарантируя, что их возможности будут как мощными, так и ответственными.
Как подать заявку на доступ к тестированию o3 и o3-mini
Заявки на ранний доступ уже открыты на сайте OpenAI и будут закрыты 10 января 2025 года.
Кандидаты должны заполнить онлайн-форму, в которой им необходимо указать различную информацию, включая направление исследований, прошлый опыт и ссылки на ранее опубликованные статьи и их репозитории кода на Github, а также выбрать, какую из моделей — o3 или o3-mini — они хотят протестировать, а также для чего они планируют их использовать.
Выбранным исследователям будет предоставлен доступ к o3 и o3-mini для изучения их возможностей и участия в оценке безопасности,
0 комментариев