Главная Стартапы и финансирование Два энтузиаста создали Dia: открытую нейросеть для...

Два энтузиаста создали Dia: открытую нейросеть для синтеза речи, превосходящую коммерческие аналоги

Стартап Nari Labs, основанный всего двумя разработчиками без внешнего финансирования, представил Dia — открытую модель синтеза речи с 1,6 млрд параметров. По утверждению создателей, она генерирует более естественные диалоги, чем коммерческие решения от ElevenLabs, Google (NotebookLM) и OpenAI (GPT-4o-mini-tts).

Сооснователь проекта Тоби Ким заявил на платформе X: «Dia не уступает подкаст-функции NotebookLM, а по качеству превосходит ElevenLabs Studio и открытую модель Sesame». Разработка велась без бюджета: «Мы не были экспертами по ИИ. Всё началось с восхищения функцией подкастов в NotebookLM. Нам хотелось больше контроля над голосами и сценариями. Существующие API не звучали как живая речь».

Для обучения модели Google предоставил доступ к своим тензорным процессорам (TPU) через программу Research Cloud. Веса модели и исходный код опубликованы на Hugging Face и GitHub. Тестовый синтез доступен через Hugging Face Space.

Ключевые возможности Dia:

Расширенное управление: Регулировка эмоциональной окраски, невербальные звуки (смех, кашель), тегирование говорящих ([S1], [S2]).
Интеллектуальная обработка: Модель корректно интерпретирует текстовые пометки вроде «(смеётся)», генерируя реальный смех — в отличие от конкурентов, которые могут произносить «ха-ха».
Клонирование голоса: Загрузка аудиообразца позволяет задать тембр и интонации.
Английский язык: Текущая версия работает только с английским. Голос меняется между запусками, но фиксируется через seed или аудиоподсказку.

Сравнение с конкурентами (на примерах Nari Labs):

Естественность диалога: Лучшая передача пауз, эмоций и динамики. В экстренной сцене Dia сохранил напряжение, тогда как аналоги «сглаживали» подачу.
Невербальные сценарии: Успешно обрабатывает скрипты, состоящие только из звуков (кашель, смех), в то время как другие модели игнорируют теги.
Ритмичный контент: Чётко воспроизводит рэп, сохраняя темп, без «рваного» звучания конкурентов.
Консистентность: Уникально сохраняет манеру речи при продолжении диалога на основе аудиоподсказки.

В Nari Labs отметили, что демо Sesame, вероятно, использует закрытую 8B-версию, а не публичную 1B, что создаёт разрыв в ожиданиях.

Технические детали:

Платформа: PyTorch 2.0+, CUDA 12.6
Требования: ~10 ГБ видеопамяти (VRAM). На NVIDIA A4000 скорость — ~40 токенов/сек.
Доступ: Python-библиотека, CLI-инструмент, репозитории GitHub и Hugging Face.
Лицензия: Apache 2.0 (разрешено коммерческое использование).
Ограничения: Запрещено создание deepfake, дезинформация, незаконные действия.

Планируется поддержка CPU и квантованная версия для слабого железа. Для обычных пользователей готовится упрощённый интерфейс (доступ через лист ожидания).

Несмотря на крошечную команду (1 full-time, 1 part-time), Nari Labs при поддержке Google TPU Research Cloud и гранта Hugging Face ZeroGPU создала мощную open-source альтернативу коммерческим TTS-решениям с акцентом на выразительность диалогов. Проект открыт для сообщества через Discord и GitHub.