Kako bi lahko AI naredil računalniški govor bolj naraven
Ključni odvzemi
- Podjetja tekmujejo, da bi našli načine, kako narediti računalniško ustvarjen govor bolj realističen.
- NVIDIA je pred kratkim predstavila orodja, ki lahko zajamejo zvok naravnega govora, tako da vam omogočajo, da usposobite AI z lastnim glasom.
- Intonacija, čustva in muzikalnost so lastnosti, ki jih računalniškim glasovom še vedno manjkajo, pravi en strokovnjak.
Računalniško ustvarjen govor bi lahko kmalu zvenel veliko bolj človeško.
Proizvajalec računalniških delov NVIDIA je pred kratkim predstavil orodja, ki lahko zajamejo zvok naravnega govora, tako da vam omogočajo, da s svojim glasom trenirate umetno inteligenco. Programska oprema lahko prenese besede enega govorca z glasom druge osebe. To je del rastočega prizadevanja za bolj realističen računalniški govor.
"Napredna tehnologija glasovne umetne inteligence omogoča uporabnikom, da govorijo naravno, z združevanjem številnih poizvedb v en stavek in odpravlja potrebo po nenehnem ponavljanju podrobnosti iz prvotne poizvedbe,"
"Dodajanje več jezikov, ki je zdaj na voljo na večini platform glasovne umetne inteligence, omogoča, da so digitalni glasovni pomočniki dostopni v več območjih in za več populacij," je dodal.
Robospeech Rising
Amazonova Alexa in Appleova Siri zvenita veliko bolje od računalniškega govora izpred desetletja, vendar ju kmalu ne bomo zamenjali za pristne človeške glasove.
Da bi umetni govor zvenel bolj naravno, je NVIDIA-ina raziskovalna skupina za pretvorbo besedila v govor razvila model RAD-TTS. Sistem omogoča posameznikom, da s svojim glasom poučujejo model pretvorbe besedila v govor (TTS), vključno s tempom, tonalnostjo, tembrom in drugimi dejavniki.
Podjetje je svoj novi model uporabilo za izgradnjo bolj pogovorno zveneče glasovne pripovedi za svojo video serijo I Am AI.
"S tem vmesnikom bi lahko naš video producent posnel sebe, ko bere video scenarij, in nato uporabil model AI za pretvorbo svojega govora v glas ženske pripovedovalke. Z uporabo te osnovne pripovedi bi lahko producent nato usmerjal AI kot glasovni igralec – prilagodil sintetizirano govor, da bi poudarili določene besede in spremenili tempo pripovedi, da bi bolje izrazili ton videoposnetka,« NVIDIA je napisal na svoji spletni strani.
Težje kot se sliši
Strokovnjaki pravijo, da je računalniško ustvarjen govor, ki zveni naravno, zapletena težava.
"Če želite ustvariti računalniško različico, morate posneti na stotine ur nečijega glasu," Nazim Ragimov, izvršni direktor podjetja za programsko opremo besedila v govor Kukarella, je za Lifewire povedal v e-poštnem intervjuju. »In posnetek mora biti kakovosten, posnet v profesionalnem studiu. Več ur kakovostnega govora je naloženega in obdelanega, boljši je rezultat."
"Pretvorba besedila v govor se lahko uporablja v igrah, za pomoč posameznikom z glasovnimi motnjami ali za pomoč uporabnikom pri prevajanju med jeziki z lastnim glasom."
Intonacija, čustva in muzikalnost so lastnosti, ki jih računalniškim glasovom še vedno manjka, je dejal Ragimov.
Če lahko umetna inteligenca doda te manjkajoče povezave, se računalniško ustvarjen govor "ne bo razlikoval od glasov resničnih igralcev," je dodal. "To je delo v teku. Drugi glasovi se bodo lahko kosali z radijskimi voditelji. Kmalu boste videli glasove, ki lahko pojejo in berejo zvočne knjige."
Govorna tehnologija postaja vse bolj priljubljena v številnih podjetjih.
"Avtomobilska industrija je nedavno sprejela glasovno umetno inteligenco kot način za ustvarjanje varnejših in bolj povezanih voznih izkušenj," je dejal Zagoršek.
"Od takrat so glasovni pomočniki postali vse bolj prisotni, saj blagovne znamke iščejo načine za izboljšanje uporabniških izkušenj in zadovoljiti povpraševanje po enostavnejših, varnejših, priročnejših, učinkovitejših in higienskih metodah interakcije z njihovimi izdelki in storitve."
Običajno glasovna umetna inteligenca pretvori poizvedbe v odgovore v dvostopenjskem procesu, ki se začne s prepisovanjem govora v besedilo z uporabo samodejnega prepoznavanja govora (ASR) in nato vnos tega besedila v razumevanje naravnega jezika (NLU) model.
SoundHoundov pristop združuje ta dva koraka v en proces za sledenje govoru v realnem času. Podjetje trdi, da ta tehnika omogoča glasovnim pomočnikom, da razumejo pomen uporabniških poizvedb, še preden oseba konča govor.
Prihodnji napredek pri računalniškem govoru, vključno z razpoložljivostjo različnih možnosti povezljivosti, od samo vdelanih (povezava v oblaku ni potrebna) do hibridnih (vgrajen plus oblak) in samo v oblaku "bosta podjetjem v različnih panogah dala več izbire glede stroškov, zasebnosti in razpoložljivosti procesorske moči," Zagoresk je rekel.
NVIDIA je dejala, da njeni novi modeli umetne inteligence presegajo delo z glasom.
"Pretvorba besedila v govor se lahko uporablja v igrah, za pomoč posameznikom z glasovnimi motnjami ali za pomoč uporabnikom pri prevajanju med jeziki z lastnim glasom," so zapisali v podjetju. "Lahko celo poustvari nastope ikoničnih pevcev, ki se ne ujemajo le z melodijo pesmi, ampak tudi s čustvenim izrazom za vokalom."