Главная IT-инновации Google представляет новую модель рассуждений Gemin...

Google представляет новую модель рассуждений Gemini 2.0 Flash Thinking, которая станет конкурентом OpenAI o1

В своем последнем стремлении переосмыслить сферу искусственного интеллекта компания Google анонсировала Gemini 2.0 Flash Thinking — многомодальную модель рассуждений, способную решать сложные проблемы как быстро, так и прозрачно.

В сообщении в социальной сети X генеральный директор Google Сундар Пичаи написал, что это: «Наша самая продуманная модель на сегодняшний день:)». А в документации для разработчиков Google поясняет: «Thinking Mode способен на более сильные возможности рассуждения в своих ответах, чем базовая модель Gemini 2.0 Flash», которая ранее была последней и лучшей моделью Google, выпущенной всего восемь дней назад.

Новая модель поддерживает всего 32 000 токенов ввода (около 50–60 страниц текста) и может выдавать 8 000 токенов на один выходной ответ. На боковой панели в Google AI Studio компания утверждает, что она лучше всего подходит для «мультимодального понимания, рассуждения» и «кодирования».

Полные сведения о процессе обучения модели, ее архитектуре, лицензировании и расходах еще не опубликованы. Прямо сейчас она показывает нулевую стоимость за токен в Google AI Studio.

Доступные и более прозрачные рассуждения

В отличие от конкурентных моделей рассуждений o1 и o1 mini от OpenAI, Gemini 2.0 позволяет пользователям получать доступ к своим пошаговым рассуждениям через раскрывающееся меню, предлагая более четкое и прозрачное представление о том, как модель приходит к своим выводам. Позволяя пользователям видеть, как принимаются решения, Gemini 2.0 решает давние опасения относительно функционирования ИИ как «черного ящика» и приводит эту модель — условия лицензирования все еще неясны — в соответствие с другими моделями с открытым исходным кодом, представленными конкурентами.

Мои ранние простые тесты модели показали, что она правильно и быстро (в течение одной-трех секунд) отвечает на некоторые вопросы, которые были крайне сложны для других моделей ИИ, например, подсчет количества букв R в слове «Strawberry» (см. скриншот выше).

В другом тесте при сравнении двух десятичных чисел (9,9 и 9,11) модель систематически разбила задачу на более мелкие шаги, от анализа целых чисел до сравнения десятичных знаков.

Эти результаты подкреплены независимым сторонним анализом LM Arena, который назвал Gemini 2.0 Flash Thinking моделью номер один по производительности во всех категориях LLM.

Встроенная поддержка загрузки и анализа изображений

В качестве дальнейшего усовершенствования по сравнению с конкурирующим семейством OpenAI o1, Gemini 2.0 Flash Thinking предназначен для обработки изображений с самого начала.

o1 был запущен как модель только для текста, но с тех пор был расширен, включив анализ загрузки изображений и файлов. Обе модели также могут возвращать только текст, в настоящее время.

Gemini 2.0 Flash Thinking также в настоящее время не поддерживает заземление с помощью Google Search или интеграцию с другими приложениями Google и внешними сторонними инструментами, согласно документации разработчика.

Мультимодальные возможности Gemini 2.0 Flash Thinking расширяют его потенциальные варианты использования, позволяя ему решать сценарии, объединяющие различные типы данных.

Например, в одном тесте модель решила головоломку, которая требовала анализа текстовых и визуальных элементов, продемонстрировав свою универсальность в интеграции и рассуждениях в разных форматах.

Разработчики могут использовать эти функции через Google AI Studio и Vertex AI, где модель доступна для экспериментов.

Поскольку ландшафт ИИ становится все более конкурентным, Gemini 2.0 Flash Thinking может ознаменовать начало новой эры для моделей решения проблем. Его способность обрабатывать различные типы данных, предлагать видимые рассуждения и выполнять масштабные функции делает его серьезным претендентом на рынке рассуждающего ИИ, конкурируя с семейством OpenAI o1 и далее.