Система STARFlow на базе нормализующих потоков демонстрирует результаты, сопоставимые с передовыми решениями.
Исследовательская группа Apple в области машинного обучения представила прорывную систему искусственного интеллекта для создания высокодетализированных изображений. Эта разработка может пошатнуть доминирование диффузионных моделей — технологии, лежащей в основе популярных генераторов вроде DALL-E и Midjourney.
Новая система, получившая название STARFlow, подробно описана в научной статье, опубликованной на прошлой неделе. Она создана специалистами Apple совместно с академическими партнёрами. STARFlow объединяет нормализующие потоки (normalizing flows) с авторегрессионными трансформерами, демонстрируя, по словам разработчиков, "сопоставимую производительность" с лучшими на сегодня диффузионными моделями.
Контекст и давление на Apple
Этот прорыв происходит в критический для Apple момент. Компания сталкивается с растущей критикой из-за отставания в области искусственного интеллекта. На недавней конференции WWDC были представлены лишь скромные обновления платформы Apple Intelligence, что подчеркнуло конкурентное давление на компанию, которую многие считают аутсайдером в нынешней технологической гонке.
"Насколько нам известно, это первая успешная демонстрация эффективной работы нормализующих потоков в таких масштабах и с таким разрешением", — заявили авторы исследования. В команду вошли сотрудники Apple Джиатао Гу, Джошуа М. Сасскинд и Шуанфэй Чжай, а также учёные из Калифорнийского университета в Беркли и Технологического института Джорджии.
Уникальный подход Apple
Разработка STARFlow отражает более широкую стратегию Apple по созданию уникальных ИИ-возможностей для дифференциации своих продуктов. Пока Google и OpenAI привлекают внимание успехами в генеративном ИИ, Apple исследует альтернативные подходы, способные предложить особые преимущества.
Команда решила ключевую задачу генерации изображений: масштабирование нормализующих потоков для работы с высоким разрешением. До сих пор в этой сфере доминировали диффузионные модели и генеративно-состязательные сети (GAN), а нормализующие потоки оставались в тени.
"STARFlow показывает сопоставимые результаты как в генерации изображений по классам, так и по текстовым описаниям, приближаясь к диффузионным моделям по качеству результата", — подчеркнули исследователи, отмечая универсальность системы.
Технические инновации
Чтобы преодолеть ограничения существующих методов, команда Apple внедрила несколько ключевых новшеств:
Глубоко-мелкая архитектура (deep-shallow design): Используется мощный блок-трансформер для основного представления данных, дополненный несколькими "мелкими", но эффективными блоками для повышения вычислительной производительности.
Работа в латентном пространстве: Модель оперирует сжатыми представлениями изображений (полученными предобученными автоэнкодерами), а не с "сырыми" пикселями, что значительно повышает эффективность.
Точное обучение: В отличие от итеративного "зашумления-раззашумления" диффузионных моделей, STARFlow сохраняет математические свойства нормализующих потоков, позволяя проводить точное обучение методом максимального правдоподобия в непрерывном пространстве без дискретизации.
Значение для продуктов Apple и будущего
Исследование публикуется в момент, когда Apple испытывает давление, требующее демонстрации реального прогресса в ИИ. Скромные анонсы на WWDC и критика возможностей Siri и Apple Intelligence подчеркивают сложности компании в этой сфере.
Точное обучение STARFlow может дать Apple преимущества в задачах, требующих:
Точного контроля над генерируемым контентом.
Оценки неопределенности модели, критичной для принятия решений (особенно важно для корпоративных решений и локального ИИ на устройствах, на чём делает акцент Apple).
Работа доказывает, что альтернативы диффузионным моделям могут достигать аналогичных результатов, открывая новые пути для инноваций. Это может сыграть на руку Apple с её сильными сторонами в интеграции "железа" и ПО, а также в обработке данных непосредственно на устройствах.
Академическое сотрудничество
Разработка иллюстрирует стратегию Apple по активному сотрудничеству с ведущими университетами. Среди соавторов — аспирант Технологического института Джорджии Тяньжун Чэнь (проходивший стажировку в Apple), Руисян Чжан из Калифорнийского университета в Беркли и Лоран Динь (известный специалист по потоковым моделям, ранее работавший в Google Brain и DeepMind).
"Ключевое отличие: наша модель остаётся сквозным нормализующим потоком", — подчеркнули исследователи, отличая свой подход от гибридных методов, жертвующих математической строгостью ради производительности.
Полный текст исследования доступен на arXiv. Хотя STARFlow — значимое техническое достижение, главный вопрос для Apple: сможет ли компания превратить такие прорывы в потребительские ИИ-функции, которые сделали конкурентов вроде ChatGPT всемирно известными? Для компании, революционизировавшей целые отрасли с iPhone, вопрос не в способности к инновациям в ИИ, а в том, успеет ли она это сделать вовремя.
0 комментариев