бургерЛого хедера
Поиск
avatar

Rime Arcana: Как ИИ создает бесконечное разнообразие естественных голосов для бизнеса

Стартап Rime бросил вызов однообразию синтезированной речи, представив модель, генерирующую уникальные голоса по текстовому описанию. Технология уже повышает продажи клиентов на 15%.

image

Создание синтезированных голосов, которые были бы не просто похожи на человеческие, но и обладали богатством нюансов и разнообразием, остается сложной задачей для разработчиков голосовых ИИ. В конечном счете, люди хотят слышать голоса, похожие на их собственные или просто естественные, а не безликий стандарт дикторов XX века.

Стартап Rime решает эту проблему с помощью Arcana – новой модели преобразования текста в речь (Text-to-Speech, TTS). Эта технология способна быстро генерировать практически «бесконечное» количество новых голосов, варьирующихся по полу, возрасту, демографическим признакам и языкам, основываясь лишь на простом текстовом описании желаемых характеристик.

По словам клиентов Rime, включая Domino’s и Wingstop, использование модели уже помогло увеличить продажи на 15%.

«Одно дело – создать модель с высококачественным, реалистичным голосом, похожим на настоящего человека, – рассказывает Лили Клиффорд, генеральный директор и соучредитель Rime, в интервью VentureBeat. – Совсем другое – создать модель, которая может генерировать не один голос, а бесконечное их разнообразие по демографическим линиям».

Модель, которая «ведет себя как человек»

Мультимодальная и саморегрессионная TTS-модель Rime обучалась на естественных разговорах с реальными людьми (в отличие от записей профессиональных дикторов). Пользователю достаточно ввести текстовое описание голоса с желаемыми демографическими характеристиками и языком.

Например: «Мне нужен голос 30-летней женщины из Калифорнии, увлекающейся софтвером» или «Сгенерируй голос австралийского мужчины».

«Каждый раз вы будете получать совершенно новый голос», – утверждает Клиффорд.

Модель Mist v2 от Rime создана для высоконагруженных, критически важных для бизнеса приложений, позволяя компаниям создавать уникальные голоса под свои нужды. «Клиент слышит голос, который позволяет вести естественный, динамичный диалог без участия живого оператора», – поясняет Клиффорд.

Для тех, кто предпочитает готовые решения, Rime предлагает восемь базовых «говорящих» персонажей с уникальными чертами:

  • Луна (жен.): Спокойная, но впечатлительная, оптимистка поколения Z.

  • Селеста (жен.): Теплая, непринужденная, жизнерадостная.

  • Орион (муж.): Старшего возраста, афроамериканец, добродушный.

  • Урса (муж.): 20 лет, энциклопедические знания об эмо-музыке 2000-х.

  • Астра (жен.): Молодая, с широко открытыми глазами (любопытная).

  • Эстер (жен.): Старшего возраста, китаянка-американка, заботливая.

  • Эстель (жен.): Средних лет, афроамериканка, очень мягкий, приятный голос.

  • Андромеда (жен.): Молодая, дышащий голос, атмосфера йоги.

Модель умеет переключаться между языками, шептать, говорить саркастично и даже насмешливо. Arcana может вставлять смех в речь при получении токена <laugh>. Как отмечает Rime, это позволяет получить разнообразные, реалистичные результаты – от легкого смешка до громкого хохота. Модель также корректно интерпретирует токены <chuckle> (усмешка), <sigh> (вздох) и даже <hum> (мычание), хотя специально этому не обучалась.

«Она выводит эмоции из контекста, – пишет Rime в техническом документе. – Она смеется, вздыхает, мычит, слышно ее дыхание и легкие звуки рта. Она естественно говорит “эм” и другие слова-паразиты. У нее есть эмерджентные свойства, которые мы все еще изучаем. Короче говоря, она ведет себя как человек».

Основа – естественные диалоги

Модель Rime генерирует аудиотокены, которые декодируются в речь с использованием кодекового подхода, что, по утверждению компании, обеспечивает «синтез быстрее реального времени». На момент запуска первая порция аудио генерировалась за 250 миллисекунд, а задержка в публичном облаке составляла около 400 миллисекунд.

Обучение Arcana проходило в три этапа:

  1. Предобучение: Rime использовала открытые большие языковые модели (LLM) в качестве основы и обучала на огромном массиве пар «текст-аудио», чтобы помочь Arcana изучить общие лингвистические и акустические закономерности.

  2. Контролируемое дообучение на «массивном» проприетарном наборе данных.

  3. Дообучение под конкретного говорящего: Rime отобрала «наиболее показательных» дикторов из своего набора данных по критериям качества бесед и надежности.

Данные Rime включают социолингвистические приемы ведения беседы (учет социального контекста: класс, пол, местоположение), идиолект (индивидуальные речевые привычки) и паралингвистические нюансы (невербальные аспекты коммуникации, сопровождающие речь).

Модель также обучалась на тонкостях акцентов, словах-паразитах (подсознательные «э-э» и «м-м»), паузах, просодических паттернах ударений (интонация, темп, выделение определенных слогов) и межъязыковом переключении кодов (когда многоязычные говорящие переходят с одного языка на другой).

Компания использовала уникальный подход к сбору этих данных. Клиффорд пояснила, что обычно разработчики моделей берут короткие записи у дикторов, а затем создают модель для воспроизведения характеристик голоса этого человека по тексту. Или собирают данные из аудиокниг.

«Наш подход был совершенно иным, – объяснила она. – Мы задались вопросом: “Как создать крупнейший в мире проприетарный набор данных именно разговорной речи?”».

Для этого Rime построила собственную студию звукозаписи в подвале в Сан-Франциско и несколько месяцев набирала участников через Craigslist, по рекомендациям или просто приглашая знакомых, друзей и родственников. Вместо заученных диалогов они записывали естественные разговоры и непринужденное общение.

Затем голоса были аннотированы детальными метаданными, включая пол, возраст, диалект, манеру речи и язык. Это позволило Rime достичь точности в 98-100%.

Клиффорд отметила, что набор данных постоянно пополняется. «Как добиться, чтобы голос звучал личностно? Этого никогда не достичь, используя только дикторов, – сказала она. – Мы проделали невероятно сложную работу по сбору по-настоящему естественных данных. Главный секрет Rime в том, что это не актеры. Это реальные люди».

Инструмент для создания уникальных голосов под задачу

Rime намерена предоставить клиентам возможность находить голоса, наилучшим образом подходящие для их приложений. Они создали инструмент «подбора голосов» (personalization harness), позволяющий пользователям проводить A/B-тестирование с разными голосами. После взаимодействия API передает данные обратно в Rime, которая предоставляет аналитическую панель, определяющую наиболее эффективные голоса на основе заданных метрик успеха.

Разумеется, у клиентов разные представления об успешном звонке. В сфере общепита это может быть продажа дополнительной порции картофеля фри или крылышек.

«Наша цель – создать инструмент, который позволит клиентам легко проводить такие эксперименты самостоятельно, – говорит Клиффорд. – Ведь наши клиенты – не кастинг-директоры по голосам, как и мы сами. Задача в том, чтобы сделать этот аналитический слой для персонализации максимально интуитивным».

Еще один ключевой показатель, который максимизируют клиенты, – готовность звонящего разговаривать с ИИ. Выяснилось, что при переходе на Rime вероятность того, что абонент станет разговаривать с ботом, возрастает в 4 раза.

«Впервые люди говорят: “Нет, не нужно меня переключать. Я вполне готов поговорить с вами”, – делится Клиффорд. – Или, когда их все же переключают, говорят “Спасибо”». (Фактически, 20% абонентов вежливо завершают разговор с ботом).

100 миллионов звонков в месяц

Среди клиентов Rime – Domino’s, Wingstop, Converse Now и Ylopo. Как отмечает Клиффорд, компания активно работает с крупными контакт-центрами, корпоративными разработчиками, создающими системы интерактивного голосового ответа (IVR), и телеком-операторами.

«Когда мы перешли на Rime, мы сразу увидели двузначный рост вероятности успешного завершения звонков, – заявил Акшай Кайастха, директор по инжинирингу ConverseNow. – Работа с Rime означает, что мы решаем массу проблем финальной стадии, возникающих при внедрении высокоэффективных приложений».

Технический директор Ylopo Цзюй Жофэн отметил, что для высоконагруженного исходящего сервиса его компании критически важно быстро установить доверие с клиентом. «Мы протестировали все модели на рынке и обнаружили, что голоса Rime обеспечивают наивысшую конверсию клиентов», – сообщил он.

По словам Клиффорд, технологии Rime уже обрабатывают около 100 миллионов телефонных звонков в месяц. «Если вы звоните в Domino’s или Wingstop, с вероятностью 80-90% вы слышите голос от Rime», – сказала она.

Планы

В планах Rime – расширение предложения локальных (on-premises) решений для поддержки низких задержек. Компания ожидает, что к концу 2025 года 90% ее объемов будут обрабатываться локально. «Причина в том, что вы никогда не достигнете такой же скорости, если запускаете эти модели в облаке», – поясняет Клиффорд.

Кроме того, Rime продолжает дообучать свои модели для решения других лингвистических задач. Например, для корректного произнесения фраз, которых модель раньше не встречала, вроде труднопроизносимого названия пиццы Domino’s «Meatza ExtravaganZZa». Как отметила Клиффорд, даже если голос персонализирован, естественен и реагирует в реальном времени, он потерпит неудачу, если не сможет справиться с уникальными потребностями компании.

«Есть еще много проблем, которые наши конкуренты считают проблемами финальной мили, но которые наши клиенты видят как проблемы первой мили», – заключила Клиффорд.

0 комментариев

Вас могут заинтересовать