бургерЛого хедера
Поиск
avatar

Два энтузиаста создали Dia: открытую нейросеть для синтеза речи, превосходящую коммерческие аналоги

Стартап Nari Labs, основанный всего двумя разработчиками без внешнего финансирования, представил Dia — открытую модель синтеза речи с 1,6 млрд параметров. По утверждению создателей, она генерирует более естественные диалоги, чем коммерческие решения от ElevenLabs, Google (NotebookLM) и OpenAI (GPT-4o-mini-tts).

image

Сооснователь проекта Тоби Ким заявил на платформе X: «Dia не уступает подкаст-функции NotebookLM, а по качеству превосходит ElevenLabs Studio и открытую модель Sesame». Разработка велась без бюджета: «Мы не были экспертами по ИИ. Всё началось с восхищения функцией подкастов в NotebookLM. Нам хотелось больше контроля над голосами и сценариями. Существующие API не звучали как живая речь».

Для обучения модели Google предоставил доступ к своим тензорным процессорам (TPU) через программу Research Cloud. Веса модели и исходный код опубликованы на Hugging Face и GitHub. Тестовый синтез доступен через Hugging Face Space.

Ключевые возможности Dia:

  • Расширенное управление: Регулировка эмоциональной окраски, невербальные звуки (смех, кашель), тегирование говорящих ([S1], [S2]).

  • Интеллектуальная обработка: Модель корректно интерпретирует текстовые пометки вроде «(смеётся)», генерируя реальный смех — в отличие от конкурентов, которые могут произносить «ха-ха».

  • Клонирование голоса: Загрузка аудиообразца позволяет задать тембр и интонации.

  • Английский язык: Текущая версия работает только с английским. Голос меняется между запусками, но фиксируется через seed или аудиоподсказку.

Сравнение с конкурентами (на примерах Nari Labs):

  • Естественность диалога: Лучшая передача пауз, эмоций и динамики. В экстренной сцене Dia сохранил напряжение, тогда как аналоги «сглаживали» подачу.

  • Невербальные сценарии: Успешно обрабатывает скрипты, состоящие только из звуков (кашель, смех), в то время как другие модели игнорируют теги.

  • Ритмичный контент: Чётко воспроизводит рэп, сохраняя темп, без «рваного» звучания конкурентов.

  • Консистентность: Уникально сохраняет манеру речи при продолжении диалога на основе аудиоподсказки.

В Nari Labs отметили, что демо Sesame, вероятно, использует закрытую 8B-версию, а не публичную 1B, что создаёт разрыв в ожиданиях.

Технические детали:

  • Платформа: PyTorch 2.0+, CUDA 12.6

  • Требования: ~10 ГБ видеопамяти (VRAM). На NVIDIA A4000 скорость — ~40 токенов/сек.

  • Доступ: Python-библиотека, CLI-инструмент, репозитории GitHub и Hugging Face.

  • Лицензия: Apache 2.0 (разрешено коммерческое использование).

  • Ограничения: Запрещено создание deepfake, дезинформация, незаконные действия.

Планируется поддержка CPU и квантованная версия для слабого железа. Для обычных пользователей готовится упрощённый интерфейс (доступ через лист ожидания).

Несмотря на крошечную команду (1 full-time, 1 part-time), Nari Labs при поддержке Google TPU Research Cloud и гранта Hugging Face ZeroGPU создала мощную open-source альтернативу коммерческим TTS-решениям с акцентом на выразительность диалогов. Проект открыт для сообщества через Discord и GitHub.

0 комментариев

Вас могут заинтересовать