Er disse superimponerende AI-lydbogstemmer gode eller dårlige?

Nøgle takeaways

  • DeepZen bruger AI (kunstig intelligens) til at skabe overraskende realistiske lydbøger ud fra tekst.
  • Teknikken bruger rigtige menneskelige stemmeskuespillere til at levere byggestenene.
  • Amazon og Audible accepterer i øjeblikket ikke computergenererede lydbøger.
En person, der blander lyd på en computer.

Kelly Skiiema / Unsplash

DeepZen er en virksomhed, der skaber computerstemmer, der bruges i lydbøger, baseret på menneskelige skuespilleres rigtige stemmer. Kvaliteten er skræmmende - let god nok til at lytte til i timevis af gangen. Gimmicken her er AI-komponenten (kunstig intelligens), som kan læse teksten og udlede den korrekte følelsesmæssige reaktion baseret på kontekst. Det sætter så den følelse ind i stemmen.

Det er imponerende og meget praktisk. Men ønsker vi virkelig en homogeniseret lydbogsoplevelse? Og hvad med de stemmeskuespillere?

"Fra indie-udgiverens perspektiv er alt, hvad der reducerer omkostningerne ved lydbogsproduktion meget interessant," fortalte Rick Carlile, ejer af det uafhængige udgiver Carlile Media, til Lifewire via e-mail.

"Men den attraktion forudsætter, at produktet ville være af samme kvalitet som traditionel fortælling. Jeg tror ikke, vi er hundrede procent der endnu. Misforstå mig ikke, DeepZen er forbløffende god. Det er et enormt gennembrud, og dets skabere fortjener enorm ros og succes. Men det er endnu ikke perfekt."

Lyd, der er 'god nok'

Den bedste måde at forstå kvaliteten af ​​DeepZen er at lytte til eksemplerne. Hvis du ikke vidste, at de var computergenererede, ville du måske ikke engang indse det. Ikke i et stykke tid i hvert fald. Lad os antage, at DeepZens AI er perfekt, og at den aldrig fejlfortolker de følelsesmæssige toner, den formodes at slå.

En plastikfigur med kun minimale funktioner, der holder en tablet, som om den læste fra den.

Brett Jordan / Unsplash

Selv da kan et menneske tilbyde mere nuancerede og ofte mere overraskende fortolkninger. En skuespiller sætter måske et uventet twist på ordene, som en computer aldrig ville overveje. Og i virkeligheden er AI-fortolkningen bestemt endnu ikke så god som en professionel stemmeskuespillers.

"Som en, der arbejder på film og senest i lydfortællingens verden, mens jeg er imponeret over AI – jeg ved med sikkerhed, at der er dybe dybder af betydning, som en maskine ikke kan fortolke," professionel stemme skuespiller Paul Cram fortalte Lifewire via e-mail.

"Vil der være en bølge af ukendte forfattere, der bruger det? Jeg garanterer, at der vil, fordi den er 'god nok'."

At være god nok, kombineret med bekvemmeligheden og omkostningsbesparelserne, kan være tilstrækkeligt til at drive indie-udgivere til tjenesten.

"Lydbøger kan koste op til $500 pr. færdig time med lyd (meget mere for en berømthedsstemme), og det inkluderer ikke tidsomkostningerne for ledelse og admin," siger Carlile. "At være i stand til at halvere disse omkostninger ved blot at uploade et manuskript til en udbyder som DeepZen er ekstremt attraktivt."

Tale Trouble

Det er endnu ikke helt så nemt som at fyre dine stemmeskuespillere og uploade manuskripter til DeepZen. Der er i øjeblikket én barriere for nem lydbog AI oration, og det er fra Amazon.

Nogen optager stemmelyd i et studie.

Joel Muniz / Unsplash

"I øjeblikket vil ACX, selvudgiverens vej til Audible og Amazon lydbogsdistribution, ikke acceptere lydbøger, som et menneske ikke har optaget," siger Carlile.

Hvorfor? Kvalitet. Her er FAQ-indgangen fra hjemmesiden:

"Tekst-til-tale eller andre automatiske optagelser er ikke tilladt. Hørbare lyttere vælger lydbøger til fremførelsen af ​​materialet såvel som historien. For at leve op til den forventning skal din lydbog være optaget af et menneske."

Det betyder, at DeepZen-genererede lydbøger er ude - i det mindste nu. Dette er ren spekulation, men DeepZen ser ud til at være et ret godt opkøb for Amazon, der lader det sælge tjenesten og beholde den udelukkende til Audible-bøger. Og selvom det ikke sker, hvis kvaliteten af ​​computergenererede lydbøger er så god som dette, så synes der ingen grund til ikke at gøre en undtagelse fra denne regel.

Ville du blive glad for at lytte til lydbøger lavet på denne måde? Når det sker, vil de fleste mennesker ikke engang have mistanke. Nogle foretrækker måske computer-genererede stemmers perfektion, fordi de vil være fri for de vokale tics og vaner, der nogle gange kan distrahere. Teknologien er også velegnet til videospil, tv- og radioreklamer og ethvert andet scenarie, hvor du vil hyre en stemmeskuespiller.

DeepZens teknologi ville også være en fantastisk måde at automatisk oprette nyhedspodcasts fra skrevne artikler, hvilket kunne være praktisk for pendlingen.

Og hvad med de stemmeskuespillere? Nå, der vil være mindst én mulighed: De kan gå og arbejde for DeepZen.