Ar šie itin įspūdingi AI garsinių knygų balsai geri ar blogi?

Key Takeaways

  • DeepZen naudoja AI (dirbtinį intelektą), kad iš teksto sukurtų stulbinančiai tikroviškas audio knygas.
  • Ši technologija naudoja tikrus žmogaus balso aktorius, kad sukurtų statybinius blokus.
  • „Amazon“ ir „Audible“ šiuo metu nepriima kompiuterinių garso knygų.
Asmuo, maišantis garsą kompiuteryje.

Kelly Skiiema / Unsplash

DeepZen yra kompanija, kurianti kompiuterinius balsus, naudojamus audioknygose, remiantis tikrais žmonių aktorių balsais. Kokybė gąsdinanti – pakankamai gera, kad būtų galima klausytis valandų valandas. Triukas čia yra AI (dirbtinio intelekto) komponentas, kuris gali perskaityti tekstą ir pagal kontekstą nustatyti teisingą emocinį atsaką. Tada tai įkelia tą emociją į balsą.

Tai įspūdinga ir labai patogu. Bet ar tikrai norime homogenizuotos garso knygos patirties? O kaip su tais balso aktoriais?

„Žvelgiant iš nepriklausomos leidyklos perspektyvos, viskas, kas sumažina garso knygų gamybos sąnaudas labai įdomu“, – „Lifewire via“ sakė nepriklausomo leidėjo Carlile Media savininkas Rickas Carlile'as paštu.

„Tačiau ši trauka daro prielaidą, kad produktas būtų tokios pat kokybės kaip tradicinis pasakojimas. Manau, kad dar nesame šimtu procentų. Nesupraskite manęs neteisingai, „DeepZen“ yra stebėtinai geras. Tai didžiulis proveržis, o jo kūrėjai nusipelno didžiulio pagyrimo ir sėkmės. Bet tai dar nėra tobula“.

Garsas, kuris yra „pakankamai geras“

Geriausias būdas suprasti „DeepZen“ kokybę yra klausytis pavyzdžių. Jei nežinotumėte, kad jie sukurti kompiuteriu, galbūt net nesuvoktumėte. Šiaip ne kurį laiką. Tarkime, kad „DeepZen“ dirbtinis intelektas yra tobulas ir niekada neteisingai interpretuoja emocines natas, kurias jis turėtų pasiekti.

Plastikinė figūra, turinti tik minimalius bruožus, laikanti planšetinį kompiuterį tarsi iš jo skaitytų.

Brettas Jordanas / Unsplash

Net ir tada žmogus gali pasiūlyti daugiau niuansų ir dažnai labiau stebinančių interpretacijų. Aktorius gali netikėtai pakeisti žodžius, kurių kompiuteris niekada net nesvarstytų. Ir iš tikrųjų AI interpretacija tikrai dar nėra tokia gera kaip profesionalaus balso aktoriaus.

„Kaip tas, kuris dirba su filmais ir pastaruoju metu garsinio pasakojimo pasaulyje, nors esu sužavėtas AI – tikrai žinau, kad yra gilių prasmės gylių, kurių mašina negali interpretuoti“, – profesionalus balsas aktorius Paulius Cramas el. paštu pasakė „Lifewire“.

„Ar jį naudos nežinomų autorių antplūdis? Garantuoju, kad bus, nes tai „pakankamai gerai“.

Pakankamai geri, kartu su patogumu ir taupymu, gali pakakti nepriklausomiems leidėjams pritraukti prie paslaugos.

„Garso knygos gali kainuoti iki 500 USD už baigtą garso valandą (daug daugiau už garsenybių balsą), o tai neapima valdymo ir administratoriaus laiko sąnaudų“, - sako Carlile. „Galimybė perpus sumažinti išlaidas tiesiog įkeliant rankraštį tokiam teikėjui kaip „DeepZen“ yra nepaprastai patrauklu.

Kalbėjimo problemos

Tai dar nėra taip paprasta, kaip atleisti savo balso aktorius ir įkelti rankraščius į „DeepZen“. Šiuo metu yra viena kliūtis lengvam audioknygų AI kalbėjimui, ir ji yra iš „Amazon“.

Kažkas studijoje įrašo balso garsą.

Joelis Munizas / Unsplash

„Šiuo metu ACX, savarankiško leidėjo kelias į „Audible“ ir „Amazon“ garso knygų platinimą, nepriims garso knygų, kurių neįrašė žmogus“, – sako Carlile.

Kodėl? Kokybė. Čia yra DUK įrašas iš svetainės:

„Teksto į kalbą ar kiti automatiniai įrašai neleidžiami. Garsiniai klausytojai renkasi garso knygas medžiagos atlikimui, taip pat pasakojimui. Kad atitiktų šiuos lūkesčius, jūsų garso knyga turi būti įrašyta žmogaus.

Tai reiškia, kad „DeepZen“ sukurtos garso knygos jau išleistos – bent jau kol kas. Tai gryna spekuliacija, tačiau „DeepZen“ atrodo gana geras „Amazon“ įsigijimas, leidžiantis parduoti paslaugą ir laikyti ją tik „Audible“ knygoms. Ir net jei taip neatsitiks, jei kompiuteriu sukurtų garsinių knygų kokybė tokia gera, atrodo, kad nėra jokios priežasties nedaryti šios taisyklės išimties.

Ar jums būtų malonu klausytis tokiu būdu sukurtų audio knygų? Kai tai atsitiks, dauguma žmonių net neįtars. Kai kurie gali teikti pirmenybę tobuliems kompiuteriu sukurtiems balsams, nes jie neturės vokalinių trikdžių ir įpročių, kurie kartais gali atitraukti dėmesį. Ši technologija taip pat tinka vaizdo žaidimams, televizijos ir radijo reklamoms ir bet kokiam kitam scenarijui, kai samdytumėte balso aktorių.

„DeepZen“ technologija taip pat būtų puikus būdas automatiškai kurti naujienų podcast'us iš parašytų straipsnių, kurie galėtų būti naudingi keliaujant į darbą ir atgal.

O kaip su tais balso aktoriais? Na, bus bent viena galimybė: jie gali eiti ir dirbti DeepZen.