Hvordan AI kunne gøre computertale mere naturlig

Nøgle takeaways

  • Virksomheder ræser for at finde måder at få computergenereret tale til at lyde mere realistisk.
  • NVIDIA afslørede for nylig værktøjer, der kan fange lyden af ​​naturlig tale ved at lade dig træne en AI med din egen stemme.
  • Intonation, følelser og musikalitet er de funktioner, som computerstemmer stadig mangler, siger en ekspert.
En person, der arbejder med en stemmeoptagelse på en bærbar computer.

CoWomen / Unsplash

Computergenereret tale kan snart lyde meget mere menneskelig.

Computerdeleproducenten NVIDIA afslørede for nylig værktøjer, der kan fange lyden af ​​naturlig tale ved at lade dig træne en AI med din stemme. Softwaren kan også levere en højttalers ord ved hjælp af en anden persons stemme. Det er en del af et spirende skub for at gøre computertale mere realistisk.

"Avanceret stemme-AI-teknologi giver brugerne mulighed for at tale naturligt, kombinerer mange forespørgsler i en enkelt sætning og eliminerer behovet for konstant at gentage detaljer fra den oprindelige forespørgsel." Michael Zagorsek, fortalte den administrerende direktør for talegenkendelsesfirmaet SoundHound til Lifewire i et e-mailinterview.

"Tilføjelsen af ​​flere sprog, som nu er tilgængelige på de fleste stemme-AI-platforme, gør digitale stemmeassistenter tilgængelige i flere geografiske områder og for flere befolkningsgrupper," tilføjede han.

Robospeech Rising

Amazons Alexa og Apples Siri lyder meget bedre end computertale fra selv et årti siden, men de vil ikke blive forvekslet med autentiske menneskestemmer på et tidspunkt.

For at få kunstig tale til at lyde mere naturligt udviklede NVIDIAs tekst-til-tale forskerhold en RAD-TTS-model. Systemet giver enkeltpersoner mulighed for at undervise i en tekst-til-tale-model (TTS) med deres stemme, herunder tempo, tonalitet, klang og andre faktorer.

Virksomheden brugte sin nye model til at bygge mere samtale-lydende stemmefortælling til sin I Am AI-videoserie.

"Med denne grænseflade kunne vores videoproducent optage sig selv i at læse videomanuskriptet og derefter bruge AI-modellen til at konvertere sin tale til den kvindelige fortællerstemme. Ved at bruge denne basisfortælling kunne producenten derefter dirigere AI'en som en stemmeskuespiller - ved at tilpasse den syntetiserede tale for at understrege specifikke ord og ændre fortællingens tempo for bedre at udtrykke videoens tone." NVIDIA skrev på sin hjemmeside.

Hårdere end det lyder

At få computergenereret tale til at lyde naturligt er et vanskeligt problem, siger eksperter.

"Du skal optage hundredvis af timer af en persons stemme for at oprette en computerversion af den," Nazim Ragimov, den administrerende direktør for tekst-til-tale-softwarevirksomheden Kukarella, fortalte Lifewire i et e-mailinterview. ”Og optagelsen skal være af høj kvalitet, optaget i et professionelt studie. Jo flere timers kvalitetstale, der indlæses og behandles, jo bedre bliver resultatet."

"Tekst-til-tale kan bruges i spil, til at hjælpe personer med stemmehandicap eller til at hjælpe brugere med at oversætte mellem sprog med deres egen stemme."

Intonation, følelser og musikalitet er de funktioner, som computerstemmer stadig mangler, sagde Ragimov.

Hvis kunstig intelligens kan tilføje disse manglende led, vil computergenereret tale være "ukendelig fra stemmerne fra rigtige skuespillere," tilføjede han. "Det er et igangværende arbejde. Andre stemmer vil kunne konkurrere med radioværter. Snart vil du se stemmer, der kan synge og læse lydbøger."

Taleteknologi bliver mere populær i en lang række virksomheder.

"Bilindustrien har for nylig taget i brug af stemme-AI som en måde at skabe sikrere og mere forbundet køreoplevelser på," sagde Zagorsek.

"Siden da er stemmeassistenter blevet mere og mere allestedsnærværende, da brands søger måder at forbedre kundeoplevelser og imødekomme efterspørgslen efter nemmere, sikrere, mere bekvemme, effektive og hygiejniske metoder til at interagere med deres produkter og tjenester."

Typisk konverterer stemme-AI forespørgsler til svar i en to-trins proces, der begynder med at transskribere tale til tekst ved at bruge automatisk talegenkendelse (ASR) og derefter føre teksten ind i en naturlig sprogforståelse (NLU) model.

Nogen optager stemmelyd i et hjemmestudie.

Soundtrap / Unsplash

SoundHounds tilgang kombinerer disse to trin i én proces for at spore tale i realtid. Virksomheden hævder, at denne teknik gør det muligt for stemmeassistenter at forstå betydningen af ​​brugerforespørgsler, selv før personen er færdig med at tale.

Fremtidige fremskridt inden for computertale, herunder tilgængeligheden af ​​en række tilslutningsmuligheder fra kun indlejret (ingen cloudforbindelse påkrævet) til hybrid (embedded plus cloud) og cloud-only "vil give flere valgmuligheder til virksomheder på tværs af industrier med hensyn til omkostninger, privatliv og tilgængelighed af processorkraft," Zagoresk sagde.

NVIDIA sagde, at deres nyheds-AI-modeller går ud over voiceover-arbejde.

"Tekst-til-tale kan bruges i spil, til at hjælpe personer med stemmehandicap eller til at hjælpe brugere med at oversætte mellem sprog med deres egen stemme," skrev virksomheden. "Det kan endda genskabe ikoniske sangeres præstationer, der matcher ikke kun melodien i en sang, men også det følelsesmæssige udtryk bag vokalen."