бургерЛого хедера
Поиск
avatar

Запущен новый высококачественный видеогенератор на основе ИИ Pyramid Flow — и он полностью с открытым исходным кодом!

Число моделей генерации видео на основе искусственного интеллекта продолжает расти: на этой неделе вышла новая модель — Pyramid Flow, которая предлагает высококачественные видеоклипы длительностью до 10 секунд — быстро и с открытым исходным кодом.

image

Разработанный в результате сотрудничества исследователей из Пекинского университета, Пекинского университета почты и телекоммуникаций и компании Kuaishou Technology (последняя является создателем хорошо зарекомендовавшего себя фирменного видеогенератора Kling AI), Pyramid Flow использует новую технологию, при которой одна модель ИИ генерирует видео поэтапно, большинство из которых имеют низкое разрешение, сохраняя только версию в полном разрешении для завершения процесса генерации.Он доступен в виде сырого кода для загрузки на Hugging Face и Github, и может быть запущен в оболочке вывода здесь, но требует, чтобы пользователь загрузил и запустил код модели на своей машине.

В выводе модель может генерировать 5-секундное видео 384p всего за 56 секунд — наравне или быстрее, чем многие аналоги с полной последовательностью диффузии — хотя Gen 3-Alpha Turbo от Runway по-прежнему лидирует с точки зрения скорости генерации видео ИИ, достигая менее одной минуты и часто 10-20 секунд в наших тестах.

У нас пока не было возможности протестировать Pyramid Flow, но видео, опубликованные создателями модели, кажутся невероятно реалистичными, достаточно высокого разрешения и убедительными — аналогичными видео из фирменных предложений. Вы можете увидеть различные примеры здесь, на странице проекта Github.

Генерация видео с помощью ИИ — это вычислительно интенсивная задача, которая обычно включает моделирование больших пространственно-временных пространств. Традиционные методы часто требуют отдельных моделей для разных этапов процесса, что ограничивает гибкость и увеличивает сложность обучения. Pyramid Flow основан на концепции пирамидального сопоставления потоков, методе, который радикально сокращает вычислительные затраты на генерацию видео, сохраняя при этом высокое визуальное качество, завершая процесс генерации видео как серию «пирамидальных» этапов, и только последний этап работает с полным разрешением. Оно описано в предварительно рассмотренной статье «Pyramidal Flow Matching for Efficient Video Generative Modeling», отправленной в открытый научный журнал arXiv 8 октября 2024 года. Авторы: Ян Цзинь, Чжичэн Сунь, Нинюань Ли, Кунь Сюй, Хао Цзян, Нань Чжуан, Цюйчжэ ​​Хуан, Ян Сун, Ядун Му и Чжоучэнь Линь. Большинство этих исследователей связаны с Пекинским университетом, а другие — с Kuaishou Technology. Как они пишут, способность сжимать и оптимизировать генерацию видео на разных этапах приводит к более быстрой сходимости во время обучения, позволяя Pyramid Flow генерировать больше образцов на обучающую партию. Например, предлагаемый пирамидальный поток уменьшает количество токенов в четыре раза по сравнению с традиционными моделями диффузии, что приводит к более эффективному обучению.

0 комментариев

Вас могут заинтересовать