Как ИИ может сделать компьютерную речь более естественной
Ключевые выводы
- Компании стремятся найти способы сделать компьютерную речь более реалистичной.
- NVIDIA недавно представила инструменты, которые могут записывать звук естественной речи, позволяя вам тренировать ИИ с помощью собственного голоса.
- По словам одного эксперта, интонация, эмоции и музыкальность - это черты, которых до сих пор не хватает компьютерным голосам.
Компьютерная речь скоро может казаться более человечной.
Производитель компьютерных комплектующих NVIDIA недавно представила инструменты, которые могут записывать звук естественной речи, позволяя тренировать ИИ с помощью голоса. Программное обеспечение также может озвучивать слова одного говорящего голосом другого человека. Это часть растущего стремления сделать компьютерную речь более реалистичной.
«Передовая технология голосового искусственного интеллекта позволяет пользователям говорить естественно, объединяя множество запросов в одно предложение и устраняя необходимость постоянно повторять детали исходного запроса»,
«Добавление нескольких языков, теперь доступных на большинстве платформ голосового ИИ, делает цифровых голосовых помощников доступными в большем количестве регионов и для большего числа групп населения», - добавил он.
Robospeech Rising
Alexa от Amazon и Siri от Apple звучат намного лучше, чем компьютерная речь даже десятилетней давности, но в ближайшее время их нельзя будет принять за настоящие человеческие голоса.
Чтобы сделать искусственную речь более естественной, исследовательская группа NVIDIA разработала модель RAD-TTS. Система позволяет людям обучать модели преобразования текста в речь (TTS) с помощью своего голоса, включая темп, тональность, тембр и другие факторы.
Компания использовала свою новую модель для создания более разговорного голосового повествования для своей серии видео I Am AI.
«С помощью этого интерфейса наш видеопродюсер мог записать себя, читая сценарий видеоролика, а затем использовать модель искусственного интеллекта для преобразования своей речи в голос женского рассказчика. Используя это базовое повествование, продюсер мог затем направить ИИ, как актер озвучивания, настраивая синтезированные речь, чтобы выделить конкретные слова и изменить темп повествования, чтобы лучше передать тон видео ", NVIDIA написал на своем сайте.
Сложнее, чем кажется
Эксперты говорят, что добиться естественного звучания компьютерной речи - непростая задача.
«Вам нужно записать сотни часов чьего-либо голоса, чтобы создать его компьютерную версию», Назим Рагимов, - сказал Lifewire в интервью по электронной почте генеральный директор компании Kukarella, занимающейся программным обеспечением для преобразования текста в речь. «И запись должна быть качественной, записанной в профессиональной студии. Чем больше часов качественной речи загружено и обработано, тем лучше результат ".
«Преобразование текста в речь можно использовать в играх, чтобы помочь людям с нарушениями голоса или помочь пользователям переводить с одного языка на другой их собственным голосом».
По словам Рагимова, интонация, эмоции и музыкальность - это черты, которых до сих пор не хватает компьютерным голосам.
Если ИИ сможет добавить эти недостающие звенья, компьютерная речь будет «неотличима от голосов реальных актеров», - добавил он. "Работа над этим продолжается. Остальные голоса смогут составить конкуренцию радиоведущим. Скоро вы увидите голоса, которые смогут петь и читать аудиокниги ".
Речевые технологии становятся все более популярными в самых разных сферах бизнеса.
«Автоиндустрия недавно стала использовать голосовой ИИ как способ создания более безопасного и интерактивного вождения», - сказал Загорсек.
"С тех пор голосовые помощники становятся все более распространенными, поскольку бренды ищут способы улучшить качество обслуживания клиентов и удовлетворить спрос на более простые, безопасные, удобные, эффективные и гигиеничные методы взаимодействия с их продуктами и Сервисы."
Как правило, голосовой ИИ преобразует запросы в ответы в двухэтапном процессе, который начинается с преобразования речи в текст. используя автоматическое распознавание речи (ASR) и затем вводя этот текст в систему понимания естественного языка (NLU) модель.
Подход SoundHound объединяет эти два шага в один процесс для отслеживания речи в режиме реального времени. Компания утверждает, что этот метод позволяет голосовым помощникам понимать смысл пользовательских запросов еще до того, как человек закончит говорить.
Будущие достижения в области компьютерной речи, включая доступность различных вариантов подключения, от встроенных (подключение к облаку не требуется) до гибридных (встроенный плюс облако) и только облако "предоставят компаниям из разных отраслей больший выбор с точки зрения стоимости, конфиденциальности и доступности вычислительной мощности", Загореск сказал.
NVIDIA заявила, что ее новостные модели искусственного интеллекта выходят за рамки озвучивания.
«Преобразование текста в речь можно использовать в играх, чтобы помочь людям с нарушениями голоса или помочь пользователям переводить с одного языка на другой своим голосом», - написали в компании. «Он даже может воссоздать выступления культовых певцов, сочетая не только мелодию песни, но и эмоциональное выражение вокала».