Yandex.Cloud запускает сервис для создания фирменных голосов компаний

13 июля 2021

761

Облачная платформа Yandex.Cloud представила новый сервис для создания фирменных голосов Yandex SpeechKit Brand Voice. Теперь компании смогут создать свой собственный уникальный голос не только для реализации сложных диалоговых сценариев с клиентами и разработки голосовых помощников, вроде Алисы, но и для автоматизации работы колл-центров, проведения опросов, телемаркетинга и контроля качества.

Yandex SpeechKit Brand Voice разработан на базе речевых ML-моделей, которые обучаются с использованием записей голоса реального человека. В итоге с помощью искусственного интеллекта создается практически полная цифровая копия голоса. Синтезированный уникальный голос компании могут внедрить в интерактивное голосовое меню (IVR), автоответчики, чаты, применить для проведения телемаркетинговых кампаний. Использование фирменного голоса позволяет отстроиться от конкурентов и телефонных спамеров, а также повысить лояльность клиентов за счет целостности публичного бренда.

Yandex SpeechKit Brand Voice представлен в двух версиях: Adaptive и Full. Первая версия Adaptive — это доступное и быстрое решение преимущественно для исходящих звонков. Версия Full, в свою очередь, нацелена на создание умных голосовых помощников, таких как Алиса, способных помогать клиентам с любыми вопросами.

SpeechKit Brand Voice Adaptive

В основе версии Brand Voice Adaptive лежит синтез переменных — не имеющая аналогов в мире разработка Yandex.Cloud. Она уникальна тем, что может синтезировать цифровую копию голоса конкретного человека по заданным заранее шаблонам всего за несколько часов, а затем персонализировать речь: добавлять нужное обращение, данные конкретного заказа, сумму и так далее. При этом синтезированный голос звучит так же естественно, как если бы фразу произносил реальный человек.

Уникальный голос в Brand Voice Adaptive создается за 1 месяц и стоит 150 тысяч рублей в месяц. Технология лучше всего показывает себя там, где заранее определены сценарии: прием входящих звонков на первой линии или исходящие звонки клиентам.

SpeechKit Brand Voice Full

Версия Brand Voice Full — это полная цифровая копия голоса реального человека без ограничений. С помощью Brand Voice Full можно создать полноценного голосового ассистента, который сможет отвечать на любые вопросы клиентов компании. Она обучается на базе 50 часов записей реального человека, а после способна воспроизводить его голосом любой текст.

Время внедрения голоса составляет примерно 6 месяцев, а стоимость разработки модели определяется индивидуально, в зависимости от сложности задач клиента.

Как работает SpeechKit Brand Voice Adaptive

Сначала диктор, который озвучивает голосового робота, записывает заготовленные фразы-шаблоны по сценариям будущего использования. Например:

“X, вы записаны на прием к X” или “Посылка № Х прибыла в пункт выдачи по адресу Х и будет находиться там до Х”.

Затем все записи в цифровом виде загружаются в ML-модель SpeechKit Brand Voice Adaptive, которая синтезирует точные цифровые копии уже записанных фраз-шаблонов. Они полностью созданы компьютером, но звучат так же естественно, как и аудиозапись.

Во время звонка ML-модель не только синтезирует шаблоны, но и дополняет их необходимыми новыми переменными из баз данных. При этом переменные всегда будут разными, как будут разными, например, имена абонентов:

“Мария, вы записаны на прием к терапевту” или “Посылка № 3020214 прибыла в пункт выдачи по адресу улица Льва Толстого, дом 18Б и будет находиться там до 30 июля 2021 года”.

ML-модель в режиме реального времени синтезирует фразы целиком: и записанные диктором шаблоны, и переменные. За счет этого речь звучит максимально естественно, нет склейки внутри синтезируемой фразы.