Kuidas AI saaks muuta arvutikõne loomulikumaks
Võtmed kaasavõtmiseks
- Ettevõtted püüavad leida viise, kuidas muuta arvutiga loodud kõne realistlikumaks.
- NVIDIA avalikustas hiljuti tööriistad, mis suudavad jäädvustada loomuliku kõne heli, võimaldades teil oma häälega tehisintellekti treenida.
- Üks ekspert ütleb, et intonatsioon, emotsioonid ja musikaalsus on need omadused, mis arvutihäältel veel puuduvad.

CoWomen / Unsplash
Arvuti loodud kõne võib peagi tunduda palju inimlikumalt.
Arvutiosade tootja NVIDIA avalikustas hiljuti tööriistad, mis suudavad jäädvustada loomulikku kõnet, võimaldades teil oma häälega tehisintellekti treenida. Tarkvara suudab edastada ka ühe kõneleja sõnu, kasutades teise inimese häält. See on osa kasvavast tõukest, mille eesmärk on muuta arvutikõne realistlikumaks.
"Täiustatud hääl-AI tehnoloogia võimaldab kasutajatel rääkida loomulikult, ühendades paljud päringud üheks lauseks ja välistades vajaduse korrata pidevalt algse päringu üksikasju." Michael Zagorsek, rääkis kõnetuvastusettevõtte SoundHound tegevjuht Lifewire'ile meiliintervjuus.
"Mitme keele lisamine, mis on nüüd saadaval enamikul kõne-AI-platvormidel, muudab digitaalsed kõneabilised kättesaadavaks rohkemates geograafilistes piirkondades ja suurema hulga elanikkonna jaoks," lisas ta.
Robospeechi tõus
Amazoni Alexa ja Apple'i Siri kõlavad palju paremini kui kümne aasta tagune arvutikõne, kuid neid ei peeta niipea autentsete inimhäältega segi.
Kunstliku kõne loomulikumaks muutmiseks töötas NVIDIA teksti kõneks muutmise uurimisrühm välja RAD-TTS mudeli. Süsteem võimaldab inimestel õpetada kõneks muutmise (TTS) mudelit oma häälega, sealhulgas rütmi, tonaalsust, tämbrit ja muid tegureid.
Ettevõte kasutas oma uut mudelit, et luua oma I Am AI videoseeria jaoks rohkem vestluskõlalist hääljutustust.
"Selle liidese abil saab meie videoprodutsent salvestada end lugemas videostsenaariumi ja seejärel kasutada tehisintellekti mudelit, et muuta oma kõne naisjutustaja hääleks. Seda algjutustust kasutades saaks produtsent seejärel AI-d suunata nagu häälnäitlejat – sünteesitud teksti kohandades. kõne konkreetsete sõnade rõhutamiseks ja jutustamise tempo muutmine video tooni paremaks väljendamiseks. NVIDIA kirjutas oma kodulehel.
Raskem, kui Kõlab
Arvutiga loodud kõne loomulikuks muutmine on keeruline probleem, väidavad eksperdid.
"Selle arvutiversiooni loomiseks peate salvestama sadu tunde kellegi häält," Nazim Ragimov, rääkis kõneks kõneks tehtava tarkvara ettevõtte Kukarella tegevjuht Lifewire'ile meiliintervjuus. «Ja salvestus peab olema kvaliteetne, salvestatud professionaalses stuudios. Mida rohkem tunde kvaliteetset kõnet laaditakse ja töödeldakse, seda parem on tulemus."
"Tekst kõneks muutmist saab kasutada mängudes, häälepuudega inimeste abistamiseks või kasutajatel oma häälega keelte vahel tõlkimisel."
Intonatsioon, emotsioonid ja musikaalsus on need omadused, mis arvutihäältel veel puuduvad, ütles Ragimov.
Kui tehisintellekt suudab need puuduvad lingid lisada, on arvutiga loodud kõne "tõeliste näitlejate häältest eristamatu", lisas ta. "See on pooleliolev töö. Teised hääled saavad konkureerida raadiosaatejuhtidega. Varsti näete hääli, mis oskavad laulda ja audioraamatuid lugeda."
Kõnetehnoloogia on muutumas populaarsemaks paljudes ettevõtetes.
"Autotööstus on hiljuti hääl-AI kasutusele võtnud, et luua turvalisemaid ja paremini ühendatud sõidukogemusi," ütles Zagorsek.
"Sellest ajast alates on häälassistendid muutunud üha enam levinud, kuna kaubamärgid otsivad võimalusi klientide kogemuste parandamiseks ja rahuldada nõudlust lihtsamate, ohutumate, mugavamate, tõhusamate ja hügieeniliste meetodite järele oma toodetega suhtlemiseks ja teenused."
Tavaliselt teisendab hääl-AI päringud vastusteks kaheetapilise protsessi käigus, mis algab kõne transkribeerimisest tekstiks automaatse kõnetuvastuse (ASR) kasutamine ja seejärel selle teksti loomuliku keele mõistmise (NLU) sisestamine mudel.

Soundtrap / Unsplash
SoundHoundi lähenemisviis ühendab need kaks sammu üheks protsessiks, et jälgida kõnet reaalajas. Ettevõte väidab, et see tehnika võimaldab hääleassistentidel mõista kasutaja päringute tähendust isegi enne, kui inimene on rääkimise lõpetanud.
Tulevased edusammud arvutikõnes, sealhulgas mitmesuguste ühenduvusvõimaluste kättesaadavus alates ainult manustatud (pole vaja pilveühendust) kuni hübriidideni (manustatud pluss pilv) ja ainult pilvepõhine "annavad ettevõtetele erinevates tööstusharudes rohkem valikuvõimalusi kulude, privaatsuse ja töötlemisvõimsuse kättesaadavuse osas," Zagoresk ütles.
NVIDIA ütles, et tema uudiste tehisintellekti mudelid ulatuvad hääledastustööst kaugemale.
"Tekst kõneks muutmist saab kasutada mängude mängimisel, häälepuudega inimeste abistamiseks või kasutajatel oma häälega keelte vahel tõlkimisel," kirjutas ettevõte. "See võib isegi taasluua ikooniliste lauljate esitused, sobitades mitte ainult laulu meloodia, vaid ka vokaali taga oleva emotsionaalse väljenduse."