Hur AI kunde göra datortal mer naturligt

December 02, 2021
ISmart Och Uppkopplat Liv Nyheter

Viktiga takeaways

Företag tävlar för att hitta sätt att få datorgenererat tal att låta mer realistiskt.
NVIDIA presenterade nyligen verktyg som kan fånga ljudet av naturligt tal genom att låta dig träna en AI med din egen röst.
Intonation, känslor och musikalitet är de funktioner som datorröster fortfarande saknar, säger en expert.

Någon som arbetar med en röstinspelning på en bärbar dator. — CoWomen / Unsplash

Datorgenererat tal kan snart låta mycket mer mänskligt.

Datordelstillverkaren NVIDIA presenterade nyligen verktyg som kan fånga ljudet av naturligt tal genom att låta dig träna en AI med din röst. Programvaran kan också leverera en talares ord med en annan persons röst. Det är en del av ett växande arbete för att göra datortal mer realistiskt.

"Avancerad röst AI-teknik tillåter användare att tala naturligt, kombinerar många förfrågningar i en enda mening och eliminerar behovet av att upprepa detaljer från den ursprungliga frågan konstant." Michael Zagorsek, den operativa chefen för taligenkänningsföretaget SoundHound, berättade för Lifewire i en e-postintervju.

"Tillägget av flera språk, som nu är tillgängligt på de flesta röst-AI-plattformar, gör digitala röstassistenter tillgängliga i fler geografier och för fler befolkningsgrupper", tillade han.

Robospeech Rising

Amazons Alexa och Apples Siri låter mycket bättre än datortal från ens ett decennium sedan, men de kommer inte att förväxlas med autentiska mänskliga röster när som helst snart.

För att få artificiellt tal att låta mer naturligt utvecklade NVIDIAs text-till-tal-forskarteam en RAD-TTS-modell. Systemet tillåter individer att lära ut en text-till-tal-modell (TTS) med sin röst, inklusive takt, tonalitet, klang och andra faktorer.

Företaget använde sin nya modell för att bygga mer konversationsljudande röstberättelse för sin I Am AI-videoserie.

"Med det här gränssnittet kunde vår videoproducent spela in sig själv när han läser videomanuset och sedan använda AI-modellen för att konvertera sitt tal till den kvinnliga berättarens röst. Med hjälp av denna baslinjeberättelse kunde producenten sedan styra AI: n som en röstskådespelare – justera den syntetiserade tal för att betona specifika ord och ändra takten i berättandet för att bättre uttrycka videons ton." NVIDIA skrev på sin hemsida.

Hårdare än det låter

Att få datorgenererat tal att låta naturligt är ett knepigt problem, säger experter.

"Du måste spela in hundratals timmar av någons röst för att skapa en datorversion av den," Nazim Ragimov, VD för text-till-tal-programvaruföretaget Kukarella, berättade för Lifewire i en e-postintervju. "Och inspelningen måste vara av hög kvalitet, inspelad i en professionell studio. Ju fler timmar av högkvalitativt tal som laddas och bearbetas, desto bättre blir resultatet."

"Text-till-tal kan användas i spel, för att hjälpa individer med vokala funktionshinder eller för att hjälpa användare att översätta mellan språk med sin egen röst."

Intonation, känslor och musikalitet är de funktioner som datorröster fortfarande saknar, sa Ragimov.

Om AI kan lägga till dessa saknade länkar kommer datorgenererat tal att vara "oskiljaktigt från rösterna från riktiga skådespelare", tillade han. "Det är ett pågående arbete. Andra röster kommer att kunna konkurrera med radiovärdar. Snart kommer du att se röster som kan sjunga och läsa ljudböcker."

Talteknik blir mer populär i ett brett spektrum av företag.

"Bilindustrin har nyligen anammat röst AI som ett sätt att skapa säkrare och mer uppkopplade körupplevelser," sa Zagorsek.

"Sedan dess har röstassistenter blivit alltmer överallt när varumärken söker sätt att förbättra kundupplevelser och möta efterfrågan på enklare, säkrare, mer bekväma, effektiva och hygieniska metoder för att interagera med sina produkter och tjänster."

Vanligtvis konverterar röst-AI frågor till svar i en tvåstegsprocess som börjar med att transkribera tal till text använda automatisk taligenkänning (ASR) och sedan mata in den texten till en naturlig språkförståelse (NLU) modell.

Någon spelar in röstljud i en hemmastudio. — Soundtrap / Unsplash

SoundHounds tillvägagångssätt kombinerar dessa två steg i en process för att spåra tal i realtid. Företaget hävdar att denna teknik tillåter röstassistenter att förstå innebörden av användarfrågor, även innan personen är färdig med att tala.

Framtida framsteg inom datortal, inklusive tillgången på en mängd olika anslutningsalternativ från inbäddad endast (ingen molnanslutning krävs) till hybrid (inbäddat plus moln) och endast moln "kommer att ge fler valmöjligheter till företag inom olika branscher när det gäller kostnader, integritet och tillgänglighet av processorkraft," Zagoresk sa.

NVIDIA sa att deras nya AI-modeller går utöver voiceover-arbete.

"Text-till-tal kan användas i spel, för att hjälpa individer med rösthandikapp, eller för att hjälpa användare att översätta mellan språk med sin egen röst", skrev företaget. "Den kan till och med återskapa framträdanden av ikoniska sångare, och matcha inte bara melodin i en låt utan också det känslomässiga uttrycket bakom sången."