Как AI може да направи компютърната реч по-естествена
Ключови изводи
- Компаниите се надпреварват да намерят начини да направят компютърно генерираната реч да звучи по-реалистично.
- NVIDIA наскоро представи инструменти, които могат да уловят звука на естествената реч, като ви позволяват да тренирате AI със собствения си глас.
- Интонацията, емоцията и музикалността са характеристиките, които все още липсват на компютърните гласове, казва един експерт.

CoWomen / Unsplash
Компютърно генерираната реч скоро може да звучи много по-човешки.
Производителят на компютърни части NVIDIA наскоро представи инструменти, които могат да уловят звука на естествената реч, като ви позволяват да тренирате AI с гласа си. Софтуерът също може да предава думите на един говорител, използвайки гласа на друг човек. Това е част от нарастващия тласък за по-реалистична компютърна реч.
„Усъвършенстваната гласова AI технология позволява на потребителите да говорят естествено, комбинирайки много запитвания в едно изречение и елиминирайки необходимостта от постоянно повтаряне на детайли от оригиналната заявка,“
„Добавянето на множество езици, които вече са налични в повечето платформи за гласов AI, прави цифровите гласови асистенти достъпни в повече географски райони и за повече популации“, добави той.
Robospeech Rising
Alexa на Amazon и Siri на Apple звучат много по-добре от компютърната реч дори преди десетилетие, но скоро няма да бъдат сбъркани с автентични човешки гласове.
За да направи изкуствената реч да звучи по-естествено, изследователският екип на NVIDIA за преобразуване на текст в говор разработи модел RAD-TTS. Системата позволява на хората да преподават модел за преобразуване на текст (TTS) с гласа си, включително темпото, тоналността, тембъра и други фактори.
Компанията използва новия си модел, за да изгради по-разговорно звучащ гласов разказ за своята видеосерия I Am AI.
„С този интерфейс нашият видео продуцент може да запише как чете видео сценария и след това да използва AI модела, за да преобразува речта си в гласа на женския разказвач. Използвайки този базов разказ, продуцентът би могъл след това да ръководи AI като гласов актьор - настройвайки синтезирания реч, за да се подчертаят конкретни думи и да се промени темпото на повествованието, за да се изрази по-добре тона на видеоклипа", NVIDIA написа на сайта си.
По-трудно, отколкото звучи
Експертите казват, че компютърно генерираната реч да звучи естествено е труден проблем.
„Трябва да запишете стотици часове нечий глас, за да създадете негова компютърна версия“, Назим Рагимов, главен изпълнителен директор на софтуерната компания за текст в реч Kukarella, каза пред Lifewire в интервю по имейл. „И записът трябва да е качествен, записан в професионално студио. Колкото повече часове качествена реч се зареди и обработи, толкова по-добър е резултатът."
„Преобразуването на говор може да се използва в игри, за подпомагане на хора с вокални увреждания или за подпомагане на потребителите да превеждат между езици със собствения си глас.“
Интонацията, емоцията и музикалността са характеристиките, които все още липсват на компютърните гласове, каза Рагимов.
Ако AI може да добави тези липсващи връзки, компютърно генерираната реч ще бъде „неразличима от гласовете на истинските актьори“, добави той. „Това е работа в ход. Други гласове ще могат да се конкурират с радиоводещите. Скоро ще видите гласове, които могат да пеят и да четат аудиокниги."
Речевите технологии стават все по-популярни в широк кръг от бизнеси.
„Автомобилната индустрия наскоро използва гласовия AI като начин за създаване на по-безопасно и по-свързано шофиране“, каза Загоршек.
„Оттогава гласовите асистенти стават все по-разпространени, тъй като марките търсят начини да подобрят изживяването на клиентите и отговарят на търсенето на по-лесни, по-безопасни, по-удобни, ефективни и хигиенични методи за взаимодействие с техните продукти и услуги."
Обикновено гласовият AI преобразува заявки в отговори в процес от две стъпки, който започва с транскрибиране на реч в текст използване на автоматично разпознаване на реч (ASR) и след това подаване на този текст в разбиране на естествен език (NLU) модел.

Soundtrap / Unsplash
Подходът на SoundHound комбинира тези две стъпки в един процес за проследяване на речта в реално време. Компанията твърди, че тази техника позволява на гласовите асистенти да разберат значението на потребителските заявки, дори преди човекът да е приключил да говори.
Бъдещи подобрения в компютърната реч, включително наличието на различни опции за свързване от само вградени (не се изисква връзка в облак) до хибридни (вграден плюс облак) и само за облак „ще дадат по-голям избор на компании от различни индустрии по отношение на разходите, поверителността и наличността на процесорна мощност“, Zagoresk казах.
NVIDIA заяви, че нейните новини AI модели надхвърлят работата с глас.
„Преобразуването на говор може да се използва в игри, за подпомагане на хора с вокални увреждания или за подпомагане на потребителите да превеждат между езици със собствения си глас“, пише компанията. „Той дори може да пресъздаде изпълненията на емблематични певци, отговаряйки не само на мелодията на песен, но и на емоционалния израз зад вокалите.