бургерЛого хедера
Поиск
avatar

Apple разработала новый ИИ для генерации изображений, бросающий вызов диффузионным моделям

Система STARFlow на базе нормализующих потоков демонстрирует результаты, сопоставимые с передовыми решениями.

image

Исследовательская группа Apple в области машинного обучения представила прорывную систему искусственного интеллекта для создания высокодетализированных изображений. Эта разработка может пошатнуть доминирование диффузионных моделей — технологии, лежащей в основе популярных генераторов вроде DALL-E и Midjourney.

Новая система, получившая название STARFlow, подробно описана в научной статье, опубликованной на прошлой неделе. Она создана специалистами Apple совместно с академическими партнёрами. STARFlow объединяет нормализующие потоки (normalizing flows) с авторегрессионными трансформерами, демонстрируя, по словам разработчиков, "сопоставимую производительность" с лучшими на сегодня диффузионными моделями.

Контекст и давление на Apple
Этот прорыв происходит в критический для Apple момент. Компания сталкивается с растущей критикой из-за отставания в области искусственного интеллекта. На недавней конференции WWDC были представлены лишь скромные обновления платформы Apple Intelligence, что подчеркнуло конкурентное давление на компанию, которую многие считают аутсайдером в нынешней технологической гонке.

"Насколько нам известно, это первая успешная демонстрация эффективной работы нормализующих потоков в таких масштабах и с таким разрешением", — заявили авторы исследования. В команду вошли сотрудники Apple Джиатао Гу, Джошуа М. Сасскинд и Шуанфэй Чжай, а также учёные из Калифорнийского университета в Беркли и Технологического института Джорджии.

Уникальный подход Apple
Разработка STARFlow отражает более широкую стратегию Apple по созданию уникальных ИИ-возможностей для дифференциации своих продуктов. Пока Google и OpenAI привлекают внимание успехами в генеративном ИИ, Apple исследует альтернативные подходы, способные предложить особые преимущества.

Команда решила ключевую задачу генерации изображений: масштабирование нормализующих потоков для работы с высоким разрешением. До сих пор в этой сфере доминировали диффузионные модели и генеративно-состязательные сети (GAN), а нормализующие потоки оставались в тени.

"STARFlow показывает сопоставимые результаты как в генерации изображений по классам, так и по текстовым описаниям, приближаясь к диффузионным моделям по качеству результата", — подчеркнули исследователи, отмечая универсальность системы.

Технические инновации
Чтобы преодолеть ограничения существующих методов, команда Apple внедрила несколько ключевых новшеств:

  1. Глубоко-мелкая архитектура (deep-shallow design): Используется мощный блок-трансформер для основного представления данных, дополненный несколькими "мелкими", но эффективными блоками для повышения вычислительной производительности.

  2. Работа в латентном пространстве: Модель оперирует сжатыми представлениями изображений (полученными предобученными автоэнкодерами), а не с "сырыми" пикселями, что значительно повышает эффективность.

  3. Точное обучение: В отличие от итеративного "зашумления-раззашумления" диффузионных моделей, STARFlow сохраняет математические свойства нормализующих потоков, позволяя проводить точное обучение методом максимального правдоподобия в непрерывном пространстве без дискретизации.

Значение для продуктов Apple и будущего
Исследование публикуется в момент, когда Apple испытывает давление, требующее демонстрации реального прогресса в ИИ. Скромные анонсы на WWDC и критика возможностей Siri и Apple Intelligence подчеркивают сложности компании в этой сфере.

Точное обучение STARFlow может дать Apple преимущества в задачах, требующих:

  • Точного контроля над генерируемым контентом.

  • Оценки неопределенности модели, критичной для принятия решений (особенно важно для корпоративных решений и локального ИИ на устройствах, на чём делает акцент Apple).

Работа доказывает, что альтернативы диффузионным моделям могут достигать аналогичных результатов, открывая новые пути для инноваций. Это может сыграть на руку Apple с её сильными сторонами в интеграции "железа" и ПО, а также в обработке данных непосредственно на устройствах.

Академическое сотрудничество
Разработка иллюстрирует стратегию Apple по активному сотрудничеству с ведущими университетами. Среди соавторов — аспирант Технологического института Джорджии Тяньжун Чэнь (проходивший стажировку в Apple), Руисян Чжан из Калифорнийского университета в Беркли и Лоран Динь (известный специалист по потоковым моделям, ранее работавший в Google Brain и DeepMind).

"Ключевое отличие: наша модель остаётся сквозным нормализующим потоком", — подчеркнули исследователи, отличая свой подход от гибридных методов, жертвующих математической строгостью ради производительности.

Полный текст исследования доступен на arXiv. Хотя STARFlow — значимое техническое достижение, главный вопрос для Apple: сможет ли компания превратить такие прорывы в потребительские ИИ-функции, которые сделали конкурентов вроде ChatGPT всемирно известными? Для компании, революционизировавшей целые отрасли с iPhone, вопрос не в способности к инновациям в ИИ, а в том, успеет ли она это сделать вовремя.


0 комментариев

Вас могут заинтересовать