Главная Стартапы и финансирование Hume запускает Voice Control, позволяя пользовател...

Hume запускает Voice Control, позволяя пользователям и разработчикам создавать собственные голоса ИИ

Стартап Hume AI, специализирующийся на голосовых интерфейсах с эмоциональным интеллектом, запустил Voice Control — экспериментальную функцию, которая позволяет разработчикам и пользователям создавать собственные голоса ИИ посредством точной модуляции вокальных характеристик — без необходимости в навыках кодирования, проектирования подсказок ИИ или звукового дизайна.

И EVI 2, и Voice Control избегают рисков клонирования голоса, практики, которая, по словам Коуэна, несет этические и практические проблемы.

Вместо этого Hume фокусируется на предоставлении инструментов для создания уникальных, выразительных голосов, которые соответствуют потребностям пользователей, таких как чат-боты для обслуживания клиентов, цифровые помощники, репетиторы, гиды или функции доступности.

Выход за рамки предустановленных голосов ИИ к индивидуальным решениям

Voice Control предлагает разработчикам возможность настраивать голоса по 10 различным параметрам, включая:

«Мужской/женский: вокализация пола, варьирующаяся от более мужественного до более женственного.

Ассертивность: твердость голоса, варьирующаяся от робкого до смелого.

Жизнерадостность: плотность голоса, варьирующаяся от сдержанного до жизнерадостного.

Уверенность: уверенность голоса, варьирующаяся от застенчивого до уверенного.

Энтузиазм: волнение в голосе, варьирующееся от спокойного до восторженного.

Назальность: открытость голоса, от чистого до гнусавого.

Расслабленность: напряжение в голосе, от напряженного до расслабленного.

Плавность: текстура голоса, от плавного до отрывистого.

Теплый: живость голоса, от прохладного до энергичного.

Плотность: сдержанность голоса, от напряженного до хриплого».

Этот инструмент без кода позволяет пользователям точно настраивать атрибуты голоса в реальном времени с помощью виртуальных ползунков на экране. В настоящее время он доступен на виртуальной игровой площадке Хьюма, для доступа к которой требуется бесплатная регистрация пользователя.

Релиз решает ключевую проблему в индустрии ИИ: зависимость от предустановленных голосов, которые часто не соответствуют конкретным потребностям брендов или приложений, или риски, связанные с клонированием голоса.

Этот акцент на настройке соответствует более широкой цели Хьюма по разработке эмоционально нюансированного голосового ИИ.

Усилия компании по продвижению голосового ИИ были отмечены в сентябре 2024 года запуском EVI 2, который компания описала как значительное обновление своего предшественника.

EVI 2 уменьшил задержку на 40%, снизил затраты на 30% и расширил возможности модуляции голоса, предлагая разработчикам более безопасную альтернативу клонированию голоса.

Ползунки > текстовые подсказки

Исследовательский подход Хьюма играет центральную роль в разработке его продукта. Компания, соучредителем которой является бывший сотрудник Google DeepMinder Алан Коуэн, использует запатентованную модель, основанную на кросс-культурных записях голоса в сочетании с данными эмоционального опроса.

Эта методология, основанная на науке об эмоциях, составляет основу как EVI 2, так и недавно выпущенного Voice Control.

Voice Control расширяет эти принципы, обращаясь к детальным, часто невыразимым способам восприятия голосов людьми.

Интерфейс инструмента на основе слайдера отражает общие перцептивные качества голоса, такие как жизнерадостность или напористость, не пытаясь чрезмерно упростить эти атрибуты с помощью текстовых подсказок.

Инструменты разработчика

Голосовое управление уже доступно в бета-версии и интегрируется с эмпатическим голосовым интерфейсом Хьюма (EVI), что делает его доступным для широкого спектра приложений.

Разработчики могут выбрать базовый голос, настроить его характеристики и просмотреть результаты в режиме реального времени. Этот процесс обеспечивает воспроизводимость и стабильность в сеансах, ключевые функции для приложений реального времени, таких как боты обслуживания клиентов или виртуальные помощники.

Влияние EVI 2 очевидно в возможностях голосового управления. Более ранняя модель представила такие функции, как подсказки в разговоре и многоязычные возможности, которые расширили сферу применения голосовых ИИ-приложений.

Например, EVI 2 поддерживает время отклика менее секунды, что обеспечивает естественные и немедленные разговоры. Он также позволяет динамически корректировать стиль речи во время взаимодействия, что делает его универсальным инструментом для бизнеса.

Дифференциация на конкурентном рынке

Фокусировка Hume на настройке голоса и эмоциональном интеллекте позиционирует его как сильного конкурента в области голосового ИИ, даже по сравнению с хорошо финансируемыми конкурентами, такими как OpenAI с его Advanced Voice Mode и ElevenLabs, которые предлагают библиотеки предустановленных голосов.

Hume продолжает развивать свой инновационный подход к голосовому ИИ. Планы по расширению голосового управления включают введение дополнительных изменяемых измерений, улучшение качества голоса при экстремальных настройках и увеличение диапазона доступных базовых голосов.

С запуском голосового управления Hume укрепляет свои позиции лидера в области инноваций голосового ИИ, предлагая инструменты, которые отдают приоритет настройке, эмоциональному интеллекту и адаптивности в реальном времени. Разработчики могут получить доступ к голосовому управлению сегодня через платформу Hume, что является еще одним шагом вперед в эволюции голосовых решений на основе ИИ.