Yandex.Cloud запускает сервис для создания фирменных голосов компаний
Yandex SpeechKit Brand Voice разработан на базе речевых ML-моделей, которые обучаются с использованием записей голоса реального человека. В итоге с помощью искусственного интеллекта создается практически полная цифровая копия голоса. Синтезированный уникальный голос компании могут внедрить в интерактивное голосовое меню (IVR), автоответчики, чаты, применить для проведения телемаркетинговых кампаний. Использование фирменного голоса позволяет отстроиться от конкурентов и телефонных спамеров, а также повысить лояльность клиентов за счет целостности публичного бренда.
Yandex SpeechKit Brand Voice представлен в двух версиях: Adaptive и Full. Первая версия Adaptive — это доступное и быстрое решение преимущественно для исходящих звонков. Версия Full, в свою очередь, нацелена на создание умных голосовых помощников, таких как Алиса, способных помогать клиентам с любыми вопросами.
SpeechKit Brand Voice Adaptive
В основе версии Brand Voice Adaptive лежит синтез переменных — не имеющая аналогов в мире разработка Yandex.Cloud. Она уникальна тем, что может синтезировать цифровую копию голоса конкретного человека по заданным заранее шаблонам всего за несколько часов, а затем персонализировать речь: добавлять нужное обращение, данные конкретного заказа, сумму и так далее. При этом синтезированный голос звучит так же естественно, как если бы фразу произносил реальный человек.
Уникальный голос в Brand Voice Adaptive создается за 1 месяц и стоит 150 тысяч рублей в месяц. Технология лучше всего показывает себя там, где заранее определены сценарии: прием входящих звонков на первой линии или исходящие звонки клиентам.
SpeechKit Brand Voice Full
Версия Brand Voice Full — это полная цифровая копия голоса реального человека без ограничений. С помощью Brand Voice Full можно создать полноценного голосового ассистента, который сможет отвечать на любые вопросы клиентов компании. Она обучается на базе 50 часов записей реального человека, а после способна воспроизводить его голосом любой текст.
Время внедрения голоса составляет примерно 6 месяцев, а стоимость разработки модели определяется индивидуально, в зависимости от сложности задач клиента.
Как работает SpeechKit Brand Voice Adaptive
Сначала диктор, который озвучивает голосового робота, записывает заготовленные фразы-шаблоны по сценариям будущего использования. Например:
“X, вы записаны на прием к X” или “Посылка № Х прибыла в пункт выдачи по адресу Х и будет находиться там до Х”.
Затем все записи в цифровом виде загружаются в ML-модель SpeechKit Brand Voice Adaptive, которая синтезирует точные цифровые копии уже записанных фраз-шаблонов. Они полностью созданы компьютером, но звучат так же естественно, как и аудиозапись.
Во время звонка ML-модель не только синтезирует шаблоны, но и дополняет их необходимыми новыми переменными из баз данных. При этом переменные всегда будут разными, как будут разными, например, имена абонентов:
“Мария, вы записаны на прием к терапевту” или “Посылка № 3020214 прибыла в пункт выдачи по адресу улица Льва Толстого, дом 18Б и будет находиться там до 30 июля 2021 года”.
ML-модель в режиме реального времени синтезирует фразы целиком: и записанные диктором шаблоны, и переменные. За счет этого речь звучит максимально естественно, нет склейки внутри синтезируемой фразы.