VentureBeat опробовали демо-версию. Первое, что бросилось в глаза — скорость. На предложенных Google промптах (создание интерактивных HTML-приложений вроде "Ксилофона" или "Планетных Крестиков-Ноликов") генерация занимала менее 3 секунд со скоростью 600-1300 токенов в секунду.
В реальном сценарии — создание интерфейса видеозвонка с предпросмотром камеры и индикатором уровня звука с микрофона — Gemini Diffusion справилась менее чем за 2 секунды, выдав рабочий код. Gemini 2.5 Flash решила ту же задачу примерно за 7 секунд.
Также доступна функция "Мгновенное правка" (Instant Edit) для редактирования вставленного текста или кода в реальном времени с минимальными указаниями. Это эффективно для исправления грамматики, адаптации стиля, добавления SEO-ключевиков, рефакторинга кода, добавления функций или перевода кода на другой язык.
Применение в бизнесе
Диффузионные языковые модели особенно полезны для приложений, требующих минимальных задержек:
Диалоговые ИИ и чат-боты
Живая транскрипция и перевод
Автодополнение в средах разработки (IDE) и ассистенты программирования
По словам О’Донохью, диффузионные модели уникально подходят для "встроенного редактирования текста", а их двунаправленность дает преимущество в задачах, требующих логики, математики и программирования.
Хотя технология ДЯМ еще молода, она способна изменить подход к созданию языковых моделей. Высокая скорость генерации и возможность исправлять ошибки "на лету" открывают путь к созданию более быстрых и, потенциально, более точных систем.
Gemini Diffusion пополняет растущее семейство ДЯМ, куда также входят Mercury от Inception Labs и открытая модель LLaDa от GSAI. Вместе они формируют мощную альтернативу традиционным авторегрессионным архитектурам, предлагая масштабируемый и параллелизуемый подход к генерации языка.
0 комментариев