Kaip AI galėtų padaryti kompiuterio kalbą natūralesnę

Key Takeaways

  • Įmonės lenktyniauja ieškodamos būdų, kaip kompiuteriu sukurtą kalbą padaryti tikroviškesnę.
  • NVIDIA neseniai pristatė įrankius, kurie gali užfiksuoti natūralios kalbos garsą, leisdami lavinti dirbtinį intelektą savo balsu.
  • Vienas ekspertas teigia, kad intonacija, emocijos ir muzikalumas yra bruožai, kurių kompiuteriniams balsams vis dar trūksta.
Kažkas dirba su balso įrašu nešiojamajame kompiuteryje.

CoWomen / Unsplash

Kompiuteriu sukurta kalba netrukus gali skambėti daug žmogiškiau.

Kompiuterių dalių gamintoja NVIDIA neseniai pristatė įrankius, kurie gali užfiksuoti natūralios kalbos garsą, leisdami lavinti dirbtinį intelektą savo balsu. Programinė įranga taip pat gali perduoti vieno kalbėtojo žodžius kito asmens balsu. Tai dalis sparčiai augančio postūmio, kad kompiuterio kalba būtų tikroviškesnė.

„Pažangi balso AI technologija leidžia vartotojams kalbėti natūraliai, sujungia daugybę užklausų į vieną sakinį ir nebereikia nuolat kartoti pradinės užklausos detalių. Michaelas Zagorsekas„Lifewire“ interviu el. paštu sakė kalbos atpažinimo įmonės „SoundHound“ vyriausiasis pareigūnas.

„Pridėjus kelias kalbas, kurias dabar galima rasti daugumoje balso AI platformų, skaitmeniniai balso asistentai tampa prieinami daugiau geografinių vietų ir daugiau gyventojų“, – pridūrė jis.

Robospeech kilimas

„Amazon“ „Alexa“ ir „Apple“ „Siri“ skamba daug geriau nei prieš dešimtmetį kompiuterinė kalba, tačiau artimiausiu metu jie nebus supainioti su autentiškais žmonių balsais.

Kad dirbtinė kalba skambėtų natūraliau, NVIDIA teksto į kalbą tyrimų komanda sukūrė RAD-TTS modelį. Sistema leidžia asmenims mokyti teksto į kalbą (TTS) modelio naudojant savo balsą, įskaitant ritmą, tonalumą, tembrą ir kitus veiksnius.

Bendrovė naudojo savo naują modelį, kad sukurtų daugiau pokalbio skambesio balso pasakojimo savo vaizdo įrašų serijoje „I Am AI“.

„Naudodamas šią sąsają, mūsų vaizdo įrašų prodiuseris gali įrašyti save skaitantį vaizdo įrašo scenarijų, o tada panaudoti dirbtinio intelekto modelį savo kalbą paversti moters pasakotojo balsu. Naudodamas šį pradinį pasakojimą, prodiuseris gali nukreipti dirbtinį intelektą kaip balso aktorius – koreguoti sintezuojamą kalba siekiant pabrėžti konkrečius žodžius ir keisti pasakojimo tempą, kad būtų geriau išreikštas vaizdo įrašo tonas. NVIDIA rašė savo svetainėje.

Sunkiau, nei skamba

Ekspertai teigia, kad kompiuterio sukurtos kalbos skambėjimas natūraliai yra sudėtinga problema.

"Jums reikia įrašyti šimtus valandų kažkieno balso, kad sukurtumėte kompiuterinę jo versiją." Nazimas Ragimovas„Lifewire“ interviu el. paštu sakė teksto į kalbą programinės įrangos įmonės Kukarella generalinis direktorius. „Ir įrašas turi būti kokybiškas, įrašytas profesionalioje studijoje. Kuo daugiau valandų kokybiškos kalbos įkeliama ir apdorojama, tuo geresnis rezultatas.

„Teksto į kalbą funkcija gali būti naudojama žaidimuose, siekiant padėti asmenims, turintiems balso negalią, arba padėti vartotojams versti iš vienos kalbos į kitą savo balsu.

Intonacija, emocijos ir muzikalumas – tai bruožai, kurių kompiuteriniams balsams vis dar trūksta, sakė Ragimovas.

Jei dirbtinis intelektas gali pridėti šias trūkstamas nuorodas, kompiuteriu sukurta kalba „nesiskirs nuo tikrų aktorių balsų“, pridūrė jis. „Tai nebaigtas darbas. Kiti balsai galės konkuruoti su radijo laidų vedėjais. Netrukus pamatysite balsus, kurie gali dainuoti ir skaityti audio knygas.

Kalbėjimo technologijos tampa vis populiaresnės įvairiose verslo srityse.

„Automobilių pramonė neseniai pradėjo naudoti balso AI kaip būdą sukurti saugesnį ir labiau susietą vairavimo patirtį“, - sakė Zagorsekas.

„Nuo to laiko balso asistentai tapo vis labiau paplitę, nes prekės ženklai ieško būdų, kaip pagerinti klientų patirtį ir patenkinti paprastesnių, saugesnių, patogesnių, efektyvesnių ir higieniškesnių sąveikos su gaminiais metodų poreikį ir paslaugos."

Paprastai balso AI paverčia užklausas į atsakymus dviejų etapų procesu, kuris prasideda kalbos perrašymu į tekstą. naudojant automatinį kalbos atpažinimą (ASR) ir tada įvesti tą tekstą į natūralios kalbos supratimą (NLU) modelis.

Kažkas įrašo balso garsą namų studijoje.

Soundtrap / Unsplash

SoundHound metodas sujungia šiuos du veiksmus į vieną procesą, kad būtų galima stebėti kalbą realiuoju laiku. Bendrovė teigia, kad ši technika leidžia balso padėjėjams suprasti vartotojo užklausų prasmę net asmeniui nebaigus kalbėti.

Būsima kompiuterinės kalbos pažanga, įskaitant įvairių ryšio parinkčių prieinamumą nuo tik įterptųjų (nereikia debesies ryšio) iki hibridinio (įterptasis plius debesis) ir tik debesyje „suteiks daugiau pasirinkimo įvairių pramonės šakų įmonėms sąnaudų, privatumo ir apdorojimo galios prieinamumo požiūriu“, – Zagoresk. sakė.

NVIDIA teigė, kad naujienų AI modeliai neapsiriboja balso perdavimu.

„Teksto į kalbą funkcija gali būti naudojama žaidimuose, siekiant padėti asmenims, turintiems balso negalią, arba padėti vartotojams versti iš vienos kalbos į kitą savo balsu“, – rašė bendrovė. „Jis netgi gali atkurti ikoniškų dainininkų pasirodymus, derindamas ne tik dainos melodiją, bet ir emocinę išraišką už vokalo“.