Компания Lightricks, известная своими популярными креативными приложениями Facetune и VideoLeap, представила свою самую мощную на сегодняшний день модель для генерации искусственного видео. Новая разработка LTX Video с 13 миллиардами параметров (LTXV-13B) создает высококачественные видеоролики с помощью ИИ в 30 раз быстрее аналогов, при этом работая на обычном потребительском оборудовании, а не на дорогих корпоративных видеокартах.
Ключевым нововведением стала технология многоуровневого рендеринга. Этот уникальный подход кардинально повышает эффективность, генерируя видео постепенно, слоями детализации. Теперь создатели контента смогут производить профессиональные ИИ-видео на стандартных настольных компьютерах и мощных ноутбуках, не нуждаясь в специализированном корпоративном железе.
Доступность вместо экзотики: Как решена проблема видеопамяти
Главным камнем преткновения для генерации ИИ-видео всегда были огромные вычислительные требования. Ведущие модели от таких компаний, как Runway, Pika и Luma, обычно работают в облаке на нескольких промышленных видеокартах с 80 ГБ и более видеопамяти (VRAM), что делает локальный запуск для большинства пользователей невозможным.
"Основное различие между потребительскими и корпоративными видеокартами — это объем VRAM", — пояснил в эксклюзивном интервью VentureBeat Зив Фарбман, соучредитель и генеральный директор Lightricks. "Nvidia позиционирует свои игровые решения с жесткими ограничениями по памяти — прошлое поколение карт 3090 и 4090 имело максимум 24 ГБ VRAM, новейшая 5090 достигает 32 ГБ. Промышленное оборудование, для сравнения, предлагает значительно больше".
Новая модель LTXV-13B создана для эффективной работы именно в рамках этих ограничений обычного "железа". "Полную модель, без какого-либо квантования или приближений, можно будет запустить на топовых потребительских видеокартах — 3090, 4090, 5090, включая их ноутбучные версии", — подчеркнул Фарбман.
Секрет скорости: Многоуровневый рендеринг по принципу художника
Основной инновацией, обеспечивающей эффективность LTXV-13B, является именно подход многоуровневого рендеринга, который Фарбман назвал "самым значительным техническим прорывом этого релиза".
"Это позволяет модели генерировать детали постепенно, — объяснил он. — Вы начинаете с грубой сетки, получая примерное представление сцены, движения объектов и так далее. Затем сцена разделяется на тайлы (плитки), и каждый тайл заполняется все более мелкими деталями".
Этот процесс повторяет методологию художников, которые начинают с набросков, прежде чем добавлять тонкие детали. Преимущество для ИИ заключается в том, что "пиковый объем используемой VRAM ограничивается размером тайла, а не итоговым разрешением всего видео", — отметил Фарбман.
Дополнительную эффективность обеспечивает более сжатое скрытое пространство (latent space) модели, которое требует меньше памяти без потери качества. "Для видео возможен более высокий коэффициент сжатия, что позволяет в скрытом пространстве занимать меньше VRAM", — добавил Фарбман.
Открытый код в эпоху закрытости
В то время как многие ведущие ИИ-модели остаются закрытыми и доступны только через API, Lightricks выложила LTXV-13B в полностью открытый исходный код на платформах Hugging Face и GitHub. Это решение принято в период, когда открытая разработка ИИ сталкивается с растущей коммерческой конкуренцией.
"Год назад все было закрыто, но сейчас ситуация меняется к лучшему. Мы видим, что появляется много крутых открытых больших языковых и диффузионных моделей, — поделился наблюдениями Фарбман. — Сейчас я настроен более оптимистично, чем полгода назад".
Стратегия открытого исходного кода также ускоряет исследования и улучшения. "Основная логика открытой публикации — снизить затраты на НИОКР, — пояснил Фарбман. — Множество академиков используют модель, пишут статьи, и мы начинаем выступать в роли куратора, который понимает, где кроются по-настоящему ценные находки".
Партнерства для решения проблем авторских прав
На фоне роста судебных исков к ИИ-компаниям, использующим данные, полученные путем скрапинга (сбора) из интернета, Lightricks заключила партнерские соглашения с Getty Images и Shutterstock для доступа к лицензионному контенту при обучении моделей.
"Сбор данных для обучения ИИ-моделей все еще находится в правовой серой зоне, — признал Фарбман. — У нас есть крупные корпоративные клиенты, которым это важно, поэтому нам необходимо гарантировать, что мы можем предоставить им "чистые" модели с точки зрения авторских прав".
Эти партнерства позволяют Lightricks предлагать модель с уменьшенными юридическими рисками для коммерческого использования, что может дать ей преимущество на корпоративном рынке, озабоченном вопросами копирайта.
Бесплатная лицензия для стартапов: Стратегическая ставка
В необычном для ИИ-индустрии шаге Lightricks предлагает LTXV-13B бесплатно для лицензирования предприятиям с годовым оборотом менее 10 миллионов долларов. Цель — создать сообщество разработчиков и компаний, которые смогут продемонстрировать ценность модели до начала ее монетизации.
"Мы исходили из того, что академическое сообщество свободно в использовании. Эти ребята могут делать с моделью что угодно, — сказал Фарбман. — Со стартапами и бизнесом мы хотим создавать ситуации взаимной выгоды. Не думаю, что можно много заработать на сообществе художников, экспериментирующих с ИИ".
Для более крупных компаний, которые добьются успеха с моделью, Lightricks планирует заключать лицензионные соглашения по аналогии с тем, как игровые движки берут плату с успешных разработчиков. "Как только их выручка достигнет десяти миллионов, мы придем с ними поговорить о лицензии", — объяснил Фарбман.
Ближайшие перспективы: Анимация и не только
Несмотря на прогресс, который представляет LTXV-13B, Фарбман признает, что генерация ИИ-видео все еще имеет ограничения. "Если быть честными и посмотреть на лучшие модели, мы все еще далеки от голливудских фильмов. Они пока не дотягивают", — сказал он.
Однако он видит непосредственное практическое применение в таких областях, как анимация, где творческие профессионалы могут использовать ИИ для обработки трудоемких аспектов производства. "Если подумать о стоимости производства высококлассной анимации, то реальная творческая работа — продумывание ключевых кадров и истории — составляет малый процент бюджета. Но создание этих ключевых кадров требует огромных ресурсов", — отметил Фарбман.
Глядя в будущее, Фарбман прогнозирует, что следующим рубежом станут мультимодальные видео-модели, интегрирующие разные типы медиа в общем скрытом пространстве. "Это будет музыка, аудио, видео и т.д. Тогда такие задачи, как реалистичная синхронизация губ, станут проще. Все эти проблемы исчезнут. У вас будет эта мультимодальная модель, которая умеет работать со всеми этими разными типами данных".
Модель LTXV-13B доступна сейчас как открытое решение и интегрируется в креативные приложения Lightricks, включая их флагманскую платформу для сторителлинга LTX Studio.
0 комментариев