Как IBM создала свой голос AI в Debater Project

Сири, Алекса и Google Assistant используют смешанные человеческие голоса, чтобы сообщить вам погоду или разбудить вас утром. Это стандартная технология преобразования текста в речь, в которой актеры голосовой связи записывают тысячи предложений, а затем компьютер разбивает записи на фрагменты, которые затем можно алгоритмически переставить.

Но эти голоса звучат как роботы, которыми они являются. За последний проект ИИ IBM, в котором компания создала ИИ, который сможет проводить длительные дебаты по широкому кругу вопросов, связанных с реальным человеком, компании требовался голос, который был бы убедительным и динамичным - голос, который звучал бы более человечно.

Но как создать голос искусственного интеллекта, наполненный настоящими эмоциями?

Сири, Алекса и Google Assistant используют смешанные человеческие голоса, чтобы сообщить вам погоду или разбудить вас утром

Энди Аарон

[Фото: любезно предоставлено IBM] Это была задача для Энди Аарона, исследователя из IBM, который руководил поиском идеального голоса для Project Debater, как он называется. Аарон не ученый и не инженер; он звукорежиссер, который ранее работал над десятками голливудских фильмов и телевизионных шоу, прежде чем его друг убедил его попробовать создать текстовые голоса для IBM. Аарона сразу же зацепили, и он два десятилетия работал в IBM над всевозможными проектами, включая создание голоса для Уотсона.

Но в отличие от голоса Уотсона, голос, который Аарон предвидел для Дебатера, был вообще в другой категории. В отличие от его типичных проектов преобразования текста в речь, которые требуют, чтобы голосовой актер прочитал несколько тысяч предложений, прежде чем передать работу алгоритму, голос Дебатера должен был быть намного более сложным. Чтобы понять, какие компоненты были необходимы, Аарон и его команда наблюдали за десятками реальных человеческих дебатов и анализировали различные тоны, которые люди используют для аргументации: голос-анекдот, голос опровержения, голос, который вы использовали бы при непосредственном обращении к аудитории, и больше. Затем он отправился на поиски человека, который имел достаточный контроль над ее голосом, чтобы она могла говорить невероятно последовательно, также говоря в этих разных ритмах.

«Это самая сложная повествовательная работа, которую кто-либо когда-либо имел», - говорит Аарон. «Это действительно сложный материал для чтения и он бесконечный».

Чтобы найти свой голос, Аарон встретился примерно с 20 людьми, равномерно распределенными между мужчинами и женщинами, и попросил их прочитать невероятно сложный сценарий, который включал скороговорки и холодные иностранные имена, не глядя на него заранее. Затем пять самых многообещающих актеров записали по 1000 строк, и Аарон создал импровизированные компьютерные голоса из этих предложений. Получив зачаточные версии компьютерных голосов актеров, он запрограммировал каждый из этих голосов, чтобы произнести еще 10 предложений. Какой бы синтезированный актером компьютерный голос не звучал лучше всех, он получил работу.

«Очевидно, что компьютер выбрал меня», - говорит Элиза Фосс, актер и закадровый диктор, чьи легкие тона покорили Аарона и стали основой для роботизированного голоса Дебатера. Только из нашего короткого разговора по телефону я понял, почему: ее голос успокаивающий, ровный и уверенный. Это голос, который ты можешь слушать часами.

Фосс обычно не предоставляет свои голосовые связки технологическим компаниям. В течение своей карьеры она записано более 100 аудиокниг , появился на Закон и порядок , и даже сыграл голос в Grand Theft Auto V. Ее последний концерт был дублером для спектакля в Линкольн-центре в Нью-Йорке.

Но она не совсем чужда и тексту в речи: около 15 лет назад она участвовала в том, что она охарактеризовала как один из первых проектов в тексте в речь для компании в Эдинбурге, Шотландия. «Я верю, что мой голос продается по всей Европе в отелях, автомобилях и подобных вещах», - говорит она.

Стать голосом ИИ было непохоже на любую работу, которую она делала раньше. Фосс и Аарон провели от 30 до 40 часов в студии звукозаписи в течение месяца. Она должна была быть технически совершенной - одна ошибка, и им пришлось бы повторить весь параграф. Самым сложным было держать ее голос в одном и том же тоне часами. «Я должна была быть последовательной, иметь свой голос в том же диапазоне, не двигаться, и действительно говорить в течение длительных периодов времени, не делая ошибок», - говорит она. «Это необычно в записи, быть последовательным и не слишком эмоциональным».

Это иронично, учитывая характер ее задачи: сделать голос, который изображает эмоции больше, чем большинство текстовых роботов. Но мы все еще говорим о компьютере. «Мы не хотим использовать эту технологию, чтобы обмануть людей», - говорит Фосс. «Мы хотим, чтобы вам напомнили, что вы не разговариваете с настоящим человеком».

Фосс не присутствовала на открытии IBM Debater этим летом, но она смотрела видео о компьютере и его производительности. К счастью, это звучит не так сильно, как она, что, по ее словам, привело бы ее в замешательство. «Я думал, что она звучит великолепно», - говорит Фосс. «Я был удивлен тем, сколько у нее было человечности».

Фосс недоволен только одним моментом: в отличие от Сири и Алексы, у Дебатера нет имени. Итак, Фосс дала ей один, в знак уважения к своему старшему брату AI: «Вацина».

Но как создать голос искусственного интеллекта, наполненный настоящими эмоциями?