Cum ar putea AI să facă vorbirea computerului mai naturală

December 02, 2021
ÎnViață Inteligentă și Conectată Știri

Recomandări cheie

Companiile se întrec pentru a găsi modalități de a face vorbirea generată de computer să sune mai realist.
NVIDIA a dezvăluit recent instrumente care pot capta sunetul vorbirii naturale, permițându-vă să antrenați un AI cu propria voce.
Intonația, emoția și muzicalitatea sunt caracteristicile de care încă le lipsesc vocile computerelor, spune un expert.

Cineva care lucrează cu o înregistrare vocală pe un laptop. — CoWomen / Unsplash

Vorbirea generată de computer ar putea în curând să sune mult mai uman.

Producătorul de piese pentru computere NVIDIA a dezvăluit recent instrumente care pot capta sunetul vorbirii naturale, permițându-vă să antrenați un AI cu vocea. De asemenea, software-ul poate transmite cuvintele unui vorbitor folosind vocea altei persoane. Face parte dintr-un impuls în creștere pentru a face vorbirea computerului mai realistă.

„Tehnologia avansată AI vocală permite utilizatorilor să vorbească în mod natural, combinând multe întrebări într-o singură propoziție și eliminând nevoia de a repeta în mod constant detaliile din interogarea originală.”

Michael Zagorsek, directorul operațional al companiei de recunoaștere a vorbirii SoundHound, a declarat pentru Lifewire într-un interviu prin e-mail.

„Adăugarea mai multor limbi, acum disponibile pe majoritatea platformelor vocale AI, face ca asistenții vocali digitali să fie accesibili în mai multe zone geografice și pentru mai multe populații”, a adăugat el.

Robospeech Rising

Alexa de la Amazon și Siri de la Apple sună mult mai bine decât vorbirea computerului de acum un deceniu, dar nu vor fi confundate cu voci umane autentice în curând.

Pentru a face vorbirea artificială să sune mai naturală, echipa de cercetare a textului în vorbire a NVIDIA a dezvoltat un model RAD-TTS. Sistemul permite persoanelor să predea un model text-to-speech (TTS) cu vocea lor, inclusiv ritmul, tonalitatea, timbrul și alți factori.

Compania și-a folosit noul model pentru a crea o narațiune vocală mai conversațională pentru seria sa de videoclipuri I Am AI.

„Cu această interfață, producătorul nostru video s-ar putea înregistra citind scenariul video și apoi să folosească modelul AI pentru a-și transforma discursul în vocea naratorului. Folosind această narațiune de bază, producătorul ar putea apoi să direcționeze AI ca un actor de voce - modificând sintetizarea discurs pentru a sublinia anumite cuvinte și pentru a modifica ritmul narațiunii pentru a exprima mai bine tonul videoclipului.” NVIDIA a scris pe site-ul său.

Mai greu decât pare

A face ca vorbirea generată de computer să sune naturală este o problemă dificilă, spun experții.

„Trebuie să înregistrați sute de ore de voce cuiva pentru a crea o versiune pentru computer a acesteia.” Nazim Ragimov, CEO-ul companiei de software de text în vorbire Kukarella, a declarat pentru Lifewire într-un interviu prin e-mail. „Și înregistrarea trebuie să fie de înaltă calitate, înregistrată într-un studio profesionist. Cu cât sunt mai multe ore de vorbire de calitate încărcate și procesate, cu atât rezultatul este mai bun.”

„Text-to-speech poate fi folosit în jocuri, pentru a ajuta persoanele cu dizabilități vocale sau pentru a ajuta utilizatorii să traducă între limbi cu propria lor voce.”

Intonația, emoția și muzicalitatea sunt caracteristicile de care încă le lipsesc vocile computerelor, a spus Ragimov.

Dacă AI poate adăuga aceste legături lipsă, vorbirea generată de computer va fi „nedistinguită de vocile actorilor reali”, a adăugat el. „Este o lucrare în curs. Alte voci vor putea concura cu gazdele radio. În curând veți vedea voci care pot cânta și pot citi cărți audio.”

Tehnologia vorbirii devine din ce în ce mai populară într-o gamă largă de afaceri.

„Industria auto a adoptat recent AI vocal ca o modalitate de a crea experiențe de conducere mai sigure și mai conectate”, a spus Zagorsek.

„De atunci, asistenții vocali au devenit din ce în ce mai omniprezenti, deoarece mărcile caută modalități de a îmbunătăți experiențele clienților și satisface cererea de metode mai ușoare, mai sigure, mai convenabile, mai eficiente și igienice de interacțiune cu produsele lor și Servicii."

De obicei, IA vocală convertește interogările în răspunsuri într-un proces în doi pași, care începe prin a transcrie vorbirea în text folosind recunoașterea automată a vorbirii (ASR) și apoi introducerea textului într-o înțelegere a limbajului natural (NLU) model.

Cineva care înregistrează vocea audio într-un studio de acasă. — Capcană sonoră / Unsplash

Abordarea SoundHound combină acești doi pași într-un singur proces pentru a urmări vorbirea în timp real. Compania susține că această tehnică permite asistenților vocali să înțeleagă semnificația interogărilor utilizatorilor, chiar înainte ca persoana să termine de vorbit.

Progrese viitoare în vorbirea computerului, inclusiv disponibilitatea unei varietăți de opțiuni de conectivitate, de la numai încorporat (nu este necesară o conexiune la cloud) la hibrid (încorporat plus cloud) și numai în cloud „vor oferi mai multe opțiuni companiilor din diverse industrii în ceea ce privește costul, confidențialitatea și disponibilitatea puterii de procesare”, Zagoresk spus.

NVIDIA a spus că noutățile sale de modele AI merg dincolo de munca de voce off.

„Text-to-speech poate fi folosit în jocuri, pentru a ajuta persoanele cu dizabilități vocale sau pentru a ajuta utilizatorii să traducă între limbi cu propria lor voce”, a scris compania. „Poate chiar recrea interpretările cântăreților emblematici, potrivindu-se nu numai cu melodia unui cântec, ci și cu expresia emoțională din spatele vocii.”