Основатель и генеральный директор Meta Марк Цукерберг, построивший компанию на базе своей популярной социальной сети Facebook, завершил эту неделю с размахом, опубликовав в своем личном Instagram (социальная сеть, которую Facebook приобрела в 2012 году) видео, на котором он выполняет упражнение для жима ногами на тренажере в спортзале.
Вот только в видеоролике тренажер для жима ногами превращается то в неоновый киберпанк, то в древнеримский, то в золотой пламенный вариант.Как оказалось, Цук не просто упражнялся: он использовал видео для анонса Movie Gen, нового семейства генеративных мультимодальных моделей ИИ от Meta, которые могут создавать видео и аудио на основе текстовых подсказок и позволяют пользователям настраивать собственные видео, добавляя спецэффекты, реквизит, костюмы и меняя отдельные элементы просто с помощью текстовых подсказок, как это сделал Цук в своем видео.Модели выглядят чрезвычайно мощными, позволяя пользователям изменять только выбранные элементы видеоклипа, а не «перематывать» или регенерировать его целиком, подобно точечному редактированию Pika в старших моделях, но с более длительной генерацией клипа и встроенным звуком.
Тесты Meta, описанные в техническом документе, посвященном семейству моделей, опубликованном сегодня, показывают, что оно превосходит ведущих конкурентов в этой области, включая Runway Gen 3, Luma Dream Machine, OpenAI Sora и Kling 1.5, по многим оценкам аудитории по различным атрибутам, таким как согласованность и «естественность» движения.Расширенные возможности мультимодального мультимедиа
Movie Gen - это новейший шаг Meta вперед в технологии генеративного искусственного интеллекта, объединяющий возможности видео и аудио в одной системе.
В частности, Movie Gen состоит из четырех моделей:
1. Movie Gen Video - модель генерации текста в видео с 30B параметрами
2. Movie Gen Audio - модель генерации видео в аудио с параметрами 13B.
3. Personalized Movie Gen Video - версия Movie Gen Video, обученная генерировать персонализированные видеоролики на основе лица человека.
4. Movie Gen Edit - модель с новой процедурой постобучения для точного редактирования видео.
Эти модели позволяют создавать реалистичные персонализированные видеоролики высокой четкости продолжительностью до 16 секунд с частотой 16 кадров в секунду, со звуком 48 кГц, а также предоставляют возможности редактирования видео.
Разработанный для решения самых разных задач - от создания персонализированных видеороликов до сложного видеомонтажа и создания высококачественного звука - Movie Gen использует мощные модели искусственного интеллекта для расширения творческих возможностей пользователей.- Генерация видео: С помощью Movie Gen пользователи могут создавать видеоролики высокой четкости (HD), просто вводя текстовые подсказки. Эти видеоролики могут воспроизводиться с разрешением 1080p, длительностью до 16 секунд и поддерживаются моделью трансформатора с 30 миллиардами параметров. Способность ИИ управлять подробными подсказками позволяет ему обрабатывать различные аспекты создания видео, включая движение камеры, взаимодействие объектов и физику окружающей среды.
- Персонализированные видео: Movie Gen предлагает захватывающую функцию персонализированных видео, где пользователи могут загрузить изображение себя или других людей, чтобы включить его в видео, сгенерированное ИИ. Модель может адаптироваться к различным подсказкам, сохраняя при этом личность человека, что делает ее полезной для создания индивидуального контента.
- Точное редактирование видео: Пакет Movie Gen также включает в себя расширенные возможности редактирования видео, которые позволяют пользователям изменять конкретные элементы в видео. Эта модель может изменять как локальные аспекты, например объекты или цвета, так и глобальные изменения, например замену фона, на основе простых текстовых инструкций.
- Генерация аудио: В дополнение к возможностям работы с видео Movie Gen также включает в себя модель генерации звука с 13 миллиардами параметров. Эта функция позволяет генерировать звуковые эффекты, окружающую музыку и синхронизированный звук, который органично сочетается с визуальным контентом. Пользователи могут создавать звуки Foley (звуковые эффекты, усиливающие и усиливающие шумы реальной жизни, такие как шелест ткани или эхо шагов), инструментальную музыку и другие аудиоэлементы.
0 комментариев