Google тихо выпустила крупное обновление своей популярной модели искусственного интеллекта Gemini, которая теперь объясняет свой процесс рассуждения, устанавливает новые рекорды производительности в математических и научных задачах и предлагает бесплатную альтернативу премиум-сервисам OpenAI.
Google тихо выпустила крупное обновление своей популярной модели искусственного интеллекта Gemini, которая теперь объясняет свой процесс рассуждения, устанавливает новые рекорды производительности в математических и научных задачах и предлагает бесплатную альтернативу премиум-сервисам OpenAI.
Новая модель Gemini 2.0 Flash Thinking, выпущенная во вторник в Google AI Studio под экспериментальным обозначением «Exp-01-21», набрала 73,3% баллов на Американском экзамене по математике (AIME) и 74,2% баллов на научном тесте GPQA Diamond. Эти результаты показывают явные улучшения по сравнению с предыдущими моделями ИИ и демонстрируют растущую силу Google в сложных рассуждениях.
Почему частные вычисления должны быть частью вашей стратегии ИИ - AI Impact Tour 2024Почему частные вычисления должны быть частью вашей стратегии ИИ - AI Impact Tour 2024
«Мы были пионерами в области систем планирования такого типа более десяти лет, начиная с таких программ, как AlphaGo, и очень интересно видеть мощное сочетание этих идей с самыми эффективными базовыми моделями», - написал Демис Хассабис, генеральный директор Google DeepMind, в сообщении на X.com (ранее Twitter).
Наше последнее обновление нашей модели Gemini 2.0 Flash Thinking (доступно здесь: https://t.co/Rr9DvqbUdO) набрало 73,3% по AIME (математика) и 74,2% по бенчмаркам GPQA Diamond (наука). Спасибо за все ваши отзывы, это демонстрирует сверхбыстрый прогресс с момента нашего первого релиза, который состоялся совсем недавно… pic.twitter.com/cM1gNwBoTO
— Демис Хассабис (@demishassabis) 21 января 2025 г.
Gemini 2.0 Flash Thinking бьет рекорды, обрабатывая миллионы токенов
Самой поразительной особенностью модели является ее способность обрабатывать до миллиона токенов текста — в пять раз больше, чем модель o1 Pro от OpenAI — при этом сохраняя более быстрое время отклика. Это расширенное контекстное окно позволяет модели одновременно анализировать несколько исследовательских работ или обширных наборов данных, что может изменить то, как исследователи и аналитики работают с большими объемами информации.
«В качестве первого эксперимента я взял различные религиозные и философские тексты и попросил Gemini 2.0 Flash Thinking сплести их вместе, извлекая новые и уникальные идеи», — сказал Дэн Мак, исследователь ИИ, который тестировал модель, в сообщении на X.com. «В общей сложности она обработала 970 000 токенов. Результат просто невероятный».
Выпуск пришелся на критический момент в развитии отрасли ИИ. Недавно OpenAI анонсировала свою модель o3, которая набрала 87,7% баллов по бенчмарку GPQA Diamond. Однако решение Google предложить свою модель бесплатно во время бета-тестирования (с ограничениями на использование) может привлечь разработчиков и предприятия, ищущих альтернативы ежемесячной подписке OpenAI за 200 долларов.
Результаты бенчмарка показывают, что последняя модель Gemini 2.0 Flash Thinking от Google значительно превосходит предыдущие версии в задачах по математике, науке и рассуждениям. (Источник: Google DeepMind)
Google предлагает бесплатную модель Gemini 2.0 Flash Thinking со встроенным выполнением кода
Джефф Дин, главный научный сотрудник Google DeepMind, подчеркнул улучшение надежности модели: «Мы продолжаем итерации с более высокой надежностью и уменьшением противоречий между мыслями модели и окончательными ответами», — написал он.
Модель также включает возможности выполнения собственного кода, что позволяет разработчикам запускать и тестировать код непосредственно в системе. Эта функция в сочетании с улучшенной защитой от противоречий делает Gemini 2.0 Flash Thinking серьезным претендентом как для исследовательских, так и для коммерческих приложений.
Аналитики отрасли отмечают, что сосредоточенность Google на объяснении своего процесса рассуждений может помочь решить растущие опасения по поводу прозрачности и надежности ИИ. В отличие от традиционных моделей «черного ящика», Gemini 2.0 Flash Thinking демонстрирует свою работу, облегчая пользователям понимание и проверку ее выводов.
Мы продолжаем итерацию, повышая надежность и уменьшая противоречия между мыслями модели и окончательными ответами.
Ознакомьтесь с ней как gemini-2.0-flash-thinking-exp-01-21 по адресу https://t.co/sw0jY6k74m
— Джефф Дин (@JeffDean) 21 января 2025 г.
Прозрачность ИИ становится новым полем битвы, поскольку Google бросает вызов OpenAI
Модель уже заняла первое место в рейтинге Chatbot Arena, выдающемся эталоне производительности ИИ, лидируя в таких категориях, как жесткие подсказки, кодирование и творческое письмо.
Однако остаются вопросы о реальной производительности и ограничениях модели. Хотя результаты тестов дают ценные показатели, они не всегда напрямую переводятся в практическое применение. Задача Google — убедить корпоративных клиентов в том, что ее бесплатное предложение может соответствовать или превосходить возможности платных альтернатив.
По мере усиления гонки вооружений ИИ последний релиз Google предполагает изменение стратегии: объединение расширенных возможностей с доступностью. Поможет ли этот подход сократить разрыв с OpenAI, еще предстоит увидеть, но он, безусловно, дает лицам, принимающим технические решения, вескую причину пересмотреть свои партнерства в области ИИ.
0 комментариев