이 매우 인상적인 AI 오디오북 음성은 좋은가 나쁜가?

주요 내용

  • DeepZen은 AI(인공 지능)를 사용하여 텍스트에서 놀랍도록 사실적인 오디오북을 만듭니다.
  • 이 기술은 실제 인간 성우를 사용하여 빌딩 블록을 제공합니다.
  • Amazon과 Audible은 현재 컴퓨터 생성 오디오북을 허용하지 않습니다.
컴퓨터에서 오디오를 믹싱하는 사람.

켈리 스키에마 / 언스플래쉬

딥젠 는 인간 배우의 실제 목소리를 바탕으로 오디오북에 사용되는 컴퓨터 음성을 만드는 회사입니다. 품질은 무섭습니다. 한 번에 몇 시간 동안 들을 수 있을 만큼 충분히 좋습니다. 여기서 기믹은 AI(인공 지능) 구성 요소로, 텍스트를 읽고 컨텍스트에 따라 올바른 감정 반응을 추론할 수 있습니다. 그런 다음 그 감정을 목소리에 담습니다.

인상적이고 매우 편리합니다. 하지만 우리가 정말로 균질한 오디오북 경험을 원할까요? 그리고 그 성우들은?

"인디 퍼블리셔의 입장에서 오디오북 제작비를 줄이는 것은 무엇이든 매우 흥미롭습니다."라고 독립 출판사인 Carlile Media의 소유주인 Rick Carlile이 말했습니다. 이메일.

"그러나 그 매력은 제품이 전통적인 내레이션과 동등한 품질을 가질 것이라고 가정합니다. 나는 우리가 아직 100% 거기에 있다고 생각하지 않습니다. 오해하지 마세요. DeepZen은 놀라울 정도로 훌륭합니다. 이는 엄청난 돌파구이며 제작자는 엄청난 찬사와 성공을 거둘 자격이 있습니다. 하지만 아직 완벽하지는 않다"고 말했다.

오디오 그 '충분히 좋다'

DeepZen의 품질을 이해하는 가장 좋은 방법은 샘플을 듣다. 컴퓨터에서 생성된 것임을 몰랐다면 깨닫지 못할 수도 있습니다. 어쨌든 당분간은 아닙니다. DeepZen의 AI가 완벽하고 그것이 쳐야 하는 감정적인 메모를 결코 잘못 해석하지 않는다고 가정해 봅시다.

최소한의 기능만 갖춘 플라스틱 피규어로, 태블릿을 읽는 것처럼 들고 있습니다.

브렛 조던 / 언스플래쉬

그때에도 인간은 더 미묘하고 종종 더 놀라운 해석을 제공할 수 있습니다. 배우는 컴퓨터가 생각조차 하지 않을 단어에 예상치 못한 반전을 가할 수 있습니다. 그리고 실제로 AI의 해석은 확실히 아직 전문 성우만큼 좋지는 않습니다.

"영화와 가장 최근에 오디오 내레이션의 세계에서 일하는 사람으로서 나는 감동을 받으면서 AI—기계가 해석할 수 없는 깊은 의미가 있다는 사실을 알고 있습니다." 전문적인 목소리 배우

폴 크램 이메일을 통해 Lifewire에 말했습니다.

"알 수 없는 작가가 급증할 것인가? 나는 그것이 '충분히 좋다'기 때문에 거기에있을 것이라고 보장합니다."

편리함과 비용 절감과 함께 충분히 좋다는 것은 인디 퍼블리셔를 서비스로 이끌기에 충분할 수 있습니다.

"오디오북의 비용은 오디오 완성 시간당 최대 $500(유명인 목소리의 경우 훨씬 더 높음)이며 여기에는 관리 및 관리 시간 비용이 포함되지 않습니다."라고 Carlile은 말합니다. "DeepZen과 같은 제공업체에 원고를 업로드하기만 하면 비용을 절반으로 줄일 수 있다는 점이 매우 매력적입니다."

말하기 문제

성우를 해고하고 DeepZen에 원고를 업로드하는 것만큼 쉽지는 않습니다. 현재 손쉬운 오디오북 AI 연설을 가로막는 장벽이 하나 있는데, 바로 아마존입니다.

누군가 스튜디오에서 음성 오디오를 녹음하고 있습니다.

조엘 무니즈 / 언스플래쉬

"현재 자가 발행인이 Audible 및 Amazon 오디오북 배포 경로인 ACX는 사람이 녹음하지 않은 오디오북을 허용하지 않습니다."라고 Carlile은 말합니다.

왜요? 품질. FAQ 항목은 다음과 같습니다. 웹사이트에서:

"텍스트 음성 변환 또는 기타 자동 녹음은 허용되지 않습니다. 가청 청취자는 스토리뿐만 아니라 자료의 성능을 위해 오디오북을 선택합니다. 그 기대에 부응하려면 오디오북을 사람이 녹음해야 합니다."

이것은 적어도 현재로서는 DeepZen이 생성한 오디오북이 출시되었음을 의미합니다. 이것은 순전히 추측이지만 DeepZen은 Amazon이 서비스를 판매하고 Audible 서적 전용으로 유지하도록 허용하는 Amazon에 대한 꽤 좋은 인수처럼 보일 것입니다. 그리고 그렇게 되지 않더라도 컴퓨터 오디오북의 품질이 이만큼 좋다면 이 규칙에서 예외를 두지 않을 이유가 거의 없어 보입니다.

이렇게 만들어진 오디오북을 들으면 행복할까요? 그런 일이 발생하면 대부분의 사람들은 의심조차 하지 않을 것입니다. 어떤 사람들은 때때로 주의를 산만하게 할 수 있는 음성 틱과 습관이 없기 때문에 완벽한 컴퓨터 생성 음성을 선호할 수 있습니다. 이 기술은 비디오 게임, TV 및 라디오 광고 및 성우를 고용해야 하는 기타 시나리오에도 적합합니다.

DeepZen의 기술은 또한 작성된 기사에서 뉴스 팟캐스트를 자동으로 생성하여 출퇴근에 편리할 수 있는 좋은 방법을 만들 것입니다.

그리고 그 성우들은? 글쎄, 적어도 한 번의 기회가있을 것입니다. 그들은 갈 수 있습니다. DeepZen에서 근무.