Стартап Hume AI, специализирующийся на голосовых интерфейсах с эмоциональным интеллектом, запустил Voice Control — экспериментальную функцию, которая позволяет разработчикам и пользователям создавать собственные голоса ИИ посредством точной модуляции вокальных характеристик — без необходимости в навыках кодирования, проектирования подсказок ИИ или звукового дизайна.
И EVI 2, и Voice Control избегают рисков клонирования голоса, практики, которая, по словам Коуэна, несет этические и практические проблемы.
Вместо этого Hume фокусируется на предоставлении инструментов для создания уникальных, выразительных голосов, которые соответствуют потребностям пользователей, таких как чат-боты для обслуживания клиентов, цифровые помощники, репетиторы, гиды или функции доступности.
Выход за рамки предустановленных голосов ИИ к индивидуальным решениям
Voice Control предлагает разработчикам возможность настраивать голоса по 10 различным параметрам, включая:
«Мужской/женский: вокализация пола, варьирующаяся от более мужественного до более женственного.
Ассертивность: твердость голоса, варьирующаяся от робкого до смелого.
Жизнерадостность: плотность голоса, варьирующаяся от сдержанного до жизнерадостного.
Уверенность: уверенность голоса, варьирующаяся от застенчивого до уверенного.
Энтузиазм: волнение в голосе, варьирующееся от спокойного до восторженного.
Назальность: открытость голоса, от чистого до гнусавого.
Расслабленность: напряжение в голосе, от напряженного до расслабленного.
Плавность: текстура голоса, от плавного до отрывистого.
Теплый: живость голоса, от прохладного до энергичного.
Плотность: сдержанность голоса, от напряженного до хриплого».
Этот инструмент без кода позволяет пользователям точно настраивать атрибуты голоса в реальном времени с помощью виртуальных ползунков на экране. В настоящее время он доступен на виртуальной игровой площадке Хьюма, для доступа к которой требуется бесплатная регистрация пользователя.
Релиз решает ключевую проблему в индустрии ИИ: зависимость от предустановленных голосов, которые часто не соответствуют конкретным потребностям брендов или приложений, или риски, связанные с клонированием голоса.
Этот акцент на настройке соответствует более широкой цели Хьюма по разработке эмоционально нюансированного голосового ИИ.
Усилия компании по продвижению голосового ИИ были отмечены в сентябре 2024 года запуском EVI 2, который компания описала как значительное обновление своего предшественника.
EVI 2 уменьшил задержку на 40%, снизил затраты на 30% и расширил возможности модуляции голоса, предлагая разработчикам более безопасную альтернативу клонированию голоса.
Ползунки > текстовые подсказки
Исследовательский подход Хьюма играет центральную роль в разработке его продукта. Компания, соучредителем которой является бывший сотрудник Google DeepMinder Алан Коуэн, использует запатентованную модель, основанную на кросс-культурных записях голоса в сочетании с данными эмоционального опроса.
Эта методология, основанная на науке об эмоциях, составляет основу как EVI 2, так и недавно выпущенного Voice Control.
Voice Control расширяет эти принципы, обращаясь к детальным, часто невыразимым способам восприятия голосов людьми.
Интерфейс инструмента на основе слайдера отражает общие перцептивные качества голоса, такие как жизнерадостность или напористость, не пытаясь чрезмерно упростить эти атрибуты с помощью текстовых подсказок.
Инструменты разработчика
Голосовое управление уже доступно в бета-версии и интегрируется с эмпатическим голосовым интерфейсом Хьюма (EVI), что делает его доступным для широкого спектра приложений.
Разработчики могут выбрать базовый голос, настроить его характеристики и просмотреть результаты в режиме реального времени. Этот процесс обеспечивает воспроизводимость и стабильность в сеансах, ключевые функции для приложений реального времени, таких как боты обслуживания клиентов или виртуальные помощники.
Влияние EVI 2 очевидно в возможностях голосового управления. Более ранняя модель представила такие функции, как подсказки в разговоре и многоязычные возможности, которые расширили сферу применения голосовых ИИ-приложений.
Например, EVI 2 поддерживает время отклика менее секунды, что обеспечивает естественные и немедленные разговоры. Он также позволяет динамически корректировать стиль речи во время взаимодействия, что делает его универсальным инструментом для бизнеса.
Дифференциация на конкурентном рынке
Фокусировка Hume на настройке голоса и эмоциональном интеллекте позиционирует его как сильного конкурента в области голосового ИИ, даже по сравнению с хорошо финансируемыми конкурентами, такими как OpenAI с его Advanced Voice Mode и ElevenLabs, которые предлагают библиотеки предустановленных голосов.
Hume продолжает развивать свой инновационный подход к голосовому ИИ. Планы по расширению голосового управления включают введение дополнительных изменяемых измерений, улучшение качества голоса при экстремальных настройках и увеличение диапазона доступных базовых голосов.
С запуском голосового управления Hume укрепляет свои позиции лидера в области инноваций голосового ИИ, предлагая инструменты, которые отдают приоритет настройке, эмоциональному интеллекту и адаптивности в реальном времени. Разработчики могут получить доступ к голосовому управлению сегодня через платформу Hume, что является еще одним шагом вперед в эволюции голосовых решений на основе ИИ.
0 комментариев