Hvordan AI kunne gjøre datamaskintale mer naturlig

December 02, 2021
ISmart Og Tilkoblet Liv Nyheter

click fraud protection

Viktige takeaways

Bedrifter kappløper for å finne måter å få datagenerert tale til å høres mer realistisk ut.
NVIDIA avduket nylig verktøy som kan fange opp lyden av naturlig tale ved å la deg trene en AI med din egen stemme.
Intonasjon, følelser og musikalitet er funksjonene som datastemmer fortsatt mangler, sier en ekspert.

Noen som jobber med et stemmeopptak på en bærbar datamaskin. — CoWomen / Unsplash

Datagenerert tale kan snart høres mye mer menneskelig ut.

Datadelerprodusenten NVIDIA avduket nylig verktøy som kan fange opp lyden av naturlig tale ved å la deg trene en AI med stemmen din. Programvaren kan også levere en høyttalers ord ved å bruke en annen persons stemme. Det er en del av et spirende push for å gjøre datatale mer realistisk.

"Avansert stemme AI-teknologi lar brukere snakke naturlig, kombinerer mange henvendelser i en enkelt setning og eliminerer behovet for å gjenta detaljer fra den opprinnelige spørringen konstant." Michael Zagorsek, fortalte administrerende direktør for talegjenkjenningsselskapet SoundHound til Lifewire i et e-postintervju.

"Tillegget av flere språk, nå tilgjengelig på de fleste stemme-AI-plattformer, gjør digitale stemmeassistenter tilgjengelige i flere geografier og for flere populasjoner," la han til.

Robospeech Rising

Amazons Alexa og Apples Siri høres mye bedre ut enn datatale fra enda et tiår siden, men de vil ikke forveksles med autentiske menneskestemmer når som helst snart.

For å få kunstig tale til å høres mer naturlig ut, utviklet NVIDIAs tekst-til-tale-forskningsteam en RAD-TTS-modell. Systemet lar enkeltpersoner lære en tekst-til-tale-modell (TTS) med stemmen sin, inkludert tempo, tonalitet, klang og andre faktorer.

Selskapet brukte sin nye modell for å bygge mer samtale-klingende stemmefortelling for sin I Am AI-videoserie.

"Med dette grensesnittet kunne vår videoprodusent ta opp seg selv mens han leste videomanuset og deretter bruke AI-modellen til å konvertere talen hans til den kvinnelige fortellerstemmen. Ved å bruke denne grunnlinjefortellingen kunne produsenten deretter dirigere AI-en som en stemmeskuespiller – tilpasse den syntetiserte tale for å understreke spesifikke ord og modifisere tempoet i fortellingen for å bedre uttrykke videoens tone," NVIDIA skrev på sin hjemmeside.

Hardere enn det høres ut

Å få datagenerert tale til å høres naturlig ut er et vanskelig problem, sier eksperter.

"Du må spille inn hundrevis av timer med noens stemme for å lage en datamaskinversjon av den," Nazim Ragimov, administrerende direktør for tekst-til-tale-programvareselskapet Kukarella, fortalte Lifewire i et e-postintervju. «Og innspillingen skal være av høy kvalitet, spilt inn i et profesjonelt studio. Jo flere timer med kvalitetstale som lastes inn og behandles, desto bedre blir resultatet."

"Tekst-til-tale kan brukes i spill, for å hjelpe personer med stemmevansker, eller for å hjelpe brukere med å oversette mellom språk med deres egen stemme."

Intonasjon, følelser og musikalitet er funksjonene som datamaskinstemmer fortsatt mangler, sa Ragimov.

Hvis AI kan legge til disse manglende lenkene, vil datamaskingenerert tale være "uskillelig fra stemmene til ekte skuespillere," la han til. "Dette er et arbeid som pågår. Andre stemmer vil kunne konkurrere med radioverter. Snart vil du se stemmer som kan synge og lese lydbøker."

Taleteknologi blir mer populær i et bredt spekter av virksomheter.

"Bilindustrien har nylig tatt i bruk stemme-AI som en måte å skape tryggere og mer tilkoblede kjøreopplevelser," sa Zagorsek.

"Siden den gang har stemmeassistenter blitt stadig mer allestedsnærværende ettersom merkevarer søker måter å forbedre kundeopplevelser og møte etterspørselen etter enklere, tryggere, mer praktiske, effektive og hygieniske metoder for å samhandle med produktene deres og tjenester."

Vanligvis konverterer stemme-AI spørringer til svar i en totrinnsprosess som begynner med å transkribere tale til tekst ved å bruke automatisk talegjenkjenning (ASR) og deretter mate teksten inn i en naturlig språkforståelse (NLU) modell.

Noen spiller inn stemmelyd i et hjemmestudio. — Soundtrap / Unsplash

SoundHounds tilnærming kombinerer disse to trinnene i én prosess for å spore tale i sanntid. Selskapet hevder at denne teknikken lar stemmeassistenter forstå betydningen av brukerforespørsler, selv før personen er ferdig med å snakke.

Fremtidige fremskritt innen datatale, inkludert tilgjengeligheten av en rekke tilkoblingsalternativer fra kun innebygd (ingen skytilkobling nødvendig) til hybrid (innebygd pluss sky) og bare sky "vil gi flere valgmuligheter til selskaper på tvers av bransjer når det gjelder kostnader, personvern og tilgjengelighet av prosessorkraft," Zagoresk sa.

NVIDIA sa at deres nyhets-AI-modeller går utover voiceover-arbeid.

"Tekst-til-tale kan brukes i spill, for å hjelpe personer med stemmevansker, eller for å hjelpe brukere med å oversette mellom språk med deres egen stemme," skrev selskapet. "Den kan til og med gjenskape forestillingene til ikoniske sangere, og matche ikke bare melodien til en sang, men også det emosjonelle uttrykket bak vokalen."