Kako bi AI mogao učiniti računalni govor prirodnijim

December 02, 2021
UPametan I Povezan život Vijesti

Ključni za poneti

Tvrtke se utrkuju u pronalaženju načina da računalno generirani govor zvuči realističnije.
NVIDIA je nedavno predstavila alate koji mogu uhvatiti zvuk prirodnog govora dopuštajući vam da trenirate AI vlastitim glasom.
Intonacija, emocija i muzikalnost su značajke koje računalnim glasovima još uvijek nedostaju, kaže jedan stručnjak.

Netko radi sa snimkom glasa na prijenosnom računalu. — CoWomen / Unsplash

Računalno generirani govor uskoro bi mogao zvučati puno ljudskije.

Proizvođač računalnih dijelova NVIDIA nedavno je predstavio alate koji mogu uhvatiti zvuk prirodnog govora dopuštajući vam da trenirate AI svojim glasom. Softver također može prenijeti riječi jednog govornika koristeći glas druge osobe. To je dio rastućeg napora da se računalni govor učini realističnijim.

"Napredna glasovna AI tehnologija omogućuje korisnicima da govore prirodno, kombinirajući mnoge upite u jednu rečenicu i eliminirajući potrebu stalnog ponavljanja detalja iz izvornog upita", Mihael Zagoršek, glavni operativni direktor tvrtke za prepoznavanje govora SoundHound, rekao je za Lifewire u intervjuu e-poštom.

"Dodavanje više jezika, sada dostupnih na većini platformi glasovne umjetne inteligencije, čini digitalne glasovne asistente dostupnim u više geografskih područja i za više populacija", dodao je.

Robospeech Rising

Amazonova Alexa i Appleova Siri zvuče puno bolje od računalnog govora od prije desetak godina, ali ih se uskoro neće zamijeniti s autentičnim ljudskim glasovima.

Kako bi umjetni govor zvučao prirodnije, NVIDIA-in istraživački tim za pretvaranje teksta u govor razvio je RAD-TTS model. Sustav omogućuje pojedincima da svojim glasom podučavaju model pretvaranja teksta u govor (TTS), uključujući tempo, ton, ton i druge čimbenike.

Tvrtka je svoj novi model koristila za izgradnju glasovne naracije koja zvuči više razgovora za svoju video seriju I Am AI.

„S ovim sučeljem, naš video producent mogao bi snimiti sebe kako čita video skriptu, a zatim upotrijebiti AI model da pretvori svoj govor u glas ženskog pripovjedača. Koristeći ovu osnovnu naraciju, producent je tada mogao režirati AI poput glasovnog glumca – prilagođavajući sintetiziranu govor kako bi se naglasile određene riječi i modificirao tempo pripovijedanja kako bi se bolje izrazio ton videozapisa", NVIDIA napisao je na svojoj web stranici.

Teže nego što zvuči

Učiniti da računalno generiran govor zvuči prirodnim je težak problem, kažu stručnjaci.

"Morate snimiti stotine sati nečijeg glasa da biste stvorili njegovu kompjutersku verziju", Nazim Ragimov, izvršni direktor tvrtke Kukarella softvera za tekst u govor, rekao je za Lifewire u intervjuu e-poštom. “I snimka mora biti kvalitetna, snimljena u profesionalnom studiju. Što se više sati kvalitetnog govora učita i obradi, to je bolji rezultat."

"Pretvaranje teksta u govor može se koristiti u igrama, za pomoć pojedincima s vokalnim poteškoćama ili za pomoć korisnicima u prevođenju s jezika na vlastiti glas."

Intonacija, emocija i muzikalnost su značajke koje računalnim glasovima još uvijek nedostaju, rekao je Ragimov.

Ako AI može dodati ove karike koje nedostaju, računalno generirani govor bit će "nerazlučiv od glasova pravih glumaca", dodao je. „To je posao u tijeku. Ostali glasovi moći će konkurirati radijskim voditeljima. Uskoro ćete vidjeti glasove koji mogu pjevati i čitati audioknjige."

Govorna tehnologija postaje sve popularnija u širokom rasponu poduzeća.

"Auto industrija je nedavno usvojila glasovnu umjetnu inteligenciju kao način za stvaranje sigurnijeg i povezanijeg iskustva vožnje", rekao je Zagoršek.

„Od tada su glasovni asistenti postali sve prisutniji jer brendovi traže načine kako poboljšati korisničko iskustvo i zadovoljiti zahtjeve za lakšim, sigurnijim, prikladnijim, učinkovitijim i higijenskim metodama interakcije s njihovim proizvodima i usluge."

Glasovna umjetna inteligencija obično pretvara upite u odgovore u procesu u dva koraka koji počinje prepisivanjem govora u tekst korištenje automatskog prepoznavanja govora (ASR) i zatim unos tog teksta u razumijevanje prirodnog jezika (NLU) model.

Netko snima glasovni zvuk u kućnom studiju. — Zvučna zamka / Unsplash

SoundHoundov pristup kombinira ova dva koraka u jedan proces za praćenje govora u stvarnom vremenu. Tvrtka tvrdi da ova tehnika omogućuje glasovnim asistentima da razumiju značenje upita korisnika, čak i prije nego što osoba završi govor.

Budući napredak računalnog govora, uključujući dostupnost raznih opcija povezivanja od samo ugrađenih (nije potrebna veza u oblaku) do hibridnih (ugrađeni plus oblak) i samo u oblaku "dat će više izbora tvrtkama u svim industrijama u smislu troškova, privatnosti i dostupnosti procesorske snage", Zagoresk rekao je.

NVIDIA je rekla da njezini modeli umjetne inteligencije za vijesti nadilaze rad na glasovnom prijenosu.

"Pretvaranje teksta u govor može se koristiti u igrama, za pomoć pojedincima s vokalnim poteškoćama ili za pomoć korisnicima u prevođenju s jezika na vlastiti glas", napisala je tvrtka. "Može čak rekreirati nastupe legendarnih pjevača, ne samo da odgovara melodiji pjesme već i emocionalnom izrazu iza vokala."