AI가 컴퓨터 음성을 더 자연스럽게 만드는 방법

December 02, 2021
에스마트 & 커넥티드 라이프 뉴스

주요 내용

기업들은 컴퓨터 생성 음성을 보다 사실적으로 만드는 방법을 찾기 위해 경쟁하고 있습니다.
NVIDIA는 최근 자신의 목소리로 AI를 훈련시켜 자연스러운 음성을 캡처할 수 있는 도구를 공개했습니다.
한 전문가는 억양, 감정, 음악성은 컴퓨터 음성에 아직 부족한 기능이라고 말합니다.

컴퓨터 생성 연설은 머지 않아 훨씬 더 인간적으로 들릴 것입니다.

컴퓨터 부품 제조업체인 NVIDIA는 최근 음성으로 AI를 훈련시켜 자연스러운 음성을 캡처할 수 있는 도구를 공개했습니다. 이 소프트웨어는 또한 다른 사람의 목소리를 사용하여 한 화자의 말을 전달할 수도 있습니다. 이는 컴퓨터 음성을 보다 사실적으로 만들기 위한 급성장하는 노력의 일부입니다.

"고급 음성 AI 기술은 사용자가 자연스럽게 말할 수 있도록 하여 많은 문의를 하나의 문장으로 결합하고 원래 쿼리의 세부 사항을 지속적으로 반복할 필요가 없도록 합니다." 마이클 자고르섹음성 인식 회사인 SoundHound의 COO는 이메일 인터뷰에서 Lifewire에 말했습니다.

"현재 대부분의 음성 AI 플랫폼에서 사용할 수 있는 여러 언어가 추가되어 더 많은 지역에서 더 많은 인구가 디지털 음성 도우미에 액세스할 수 있게 되었습니다."라고 그는 덧붙였습니다.

로보스피치 라이징

Amazon의 Alexa와 Apple의 Siri는 10년 전의 컴퓨터 음성보다 훨씬 더 좋게 들리지만 조만간 실제 사람의 음성으로 오인되지는 않을 것입니다.

인공 음성을 보다 자연스럽게 만들기 위해 NVIDIA의 TTS(텍스트 음성 변환) 연구팀은 RAD-TTS 모델을 개발했습니다. 이 시스템을 통해 개인은 속도, 음조, 음색 및 기타 요소를 포함하여 음성으로 TTS(텍스트 음성 변환) 모델을 가르칠 수 있습니다.

회사는 새로운 모델을 사용하여 I Am AI 비디오 시리즈를 위해 더 대화식으로 들리는 음성 내레이션을 구축했습니다.

"이 인터페이스를 통해 우리 비디오 제작자는 비디오 스크립트를 읽는 자신을 녹화한 다음 AI 모델을 사용하여 그의 연설을 여성 내레이터의 목소리로 변환할 수 있습니다. 이 기본 내레이션을 사용하여 제작자는 성우처럼 AI를 지시할 수 있습니다. 특정 단어를 강조하기 위해 연설하고 비디오의 톤을 더 잘 표현하기 위해 내레이션의 속도를 수정합니다." 엔비디아

웹사이트에 썼다.

생각보다 어렵다

컴퓨터 생성 음성을 자연스럽게 만드는 것은 까다로운 문제라고 전문가들은 말합니다.

"컴퓨터 버전을 만들려면 수백 시간 동안 누군가의 목소리를 녹음해야 합니다." 나짐 라기모프TTS(텍스트 음성 변환) 소프트웨어 회사 Kukarella의 CEO는 이메일 인터뷰에서 Lifewire에 말했습니다. "그리고 녹음은 전문 스튜디오에서 녹음된 고품질이어야 합니다. 양질의 연설을 더 많이 로드하고 처리할수록 더 좋은 결과를 얻을 수 있습니다."

"텍스트 음성 변환은 게임에서 음성 장애가 있는 개인을 돕거나 사용자가 자신의 음성으로 언어 간 번역을 돕도록 사용할 수 있습니다."

억양, 감정, 음악성은 컴퓨터 음성에 아직 부족한 기능이라고 Ragimov는 말했습니다.

AI가 이러한 누락된 링크를 추가할 수 있다면 컴퓨터 생성 음성은 "실제 배우의 목소리와 구별할 수 없을 것"이라고 덧붙였다. "진행 중인 작업입니다. 다른 목소리는 라디오 호스트와 경쟁할 수 있습니다. 곧 당신은 노래를 부르고 오디오북을 읽을 수 있는 목소리를 보게 될 것입니다."

음성 기술은 다양한 비즈니스에서 점점 더 대중화되고 있습니다.

Zagorsek은 "자동차 산업은 보다 안전하고 연결된 운전 경험을 만들기 위한 방법으로 최근 음성 AI를 채택했습니다."라고 말했습니다.

"그 이후로 브랜드가 고객 경험 및 더 쉽고, 더 안전하고, 더 편리하고, 효율적이고, 위생적인 방법으로 제품과 상호 작용하는 방법에 대한 요구를 충족하고 서비스."

일반적으로 음성 AI는 음성을 텍스트로 변환하는 것으로 시작하는 2단계 프로세스에서 쿼리를 응답으로 변환합니다. ASR(자동 음성 인식)을 사용한 다음 해당 텍스트를 NLU(자연어 이해)에 입력 모델.

누군가가 홈 스튜디오에서 음성 오디오를 녹음하고 있습니다. — 사운드트랩 / 언스플래쉬

SoundHound의 접근 방식은 이 두 단계를 하나의 프로세스로 결합하여 실시간으로 음성을 추적합니다. 회사는 이 기술을 통해 음성 비서가 사용자가 말하기를 마치기도 전에 사용자 쿼리의 의미를 이해할 수 있다고 주장합니다.

임베디드 전용(클라우드 연결 필요 없음)에서 하이브리드에 이르기까지 다양한 연결 옵션의 가용성을 포함하여 컴퓨터 음성의 미래 발전 Zagoresk는 (임베디드 플러스 클라우드) 및 클라우드 전용 "비용, 개인 정보 보호 및 처리 능력의 가용성 측면에서 업계 전반의 회사에 더 많은 선택권을 제공할 것"이라고 말했습니다. 말했다.

NVIDIA는 자사의 뉴스 AI 모델이 음성 해설 작업을 넘어선다고 말했습니다.

회사는 "텍스트 음성 변환은 게임에서 음성 장애가 있는 개인을 돕거나 사용자가 자신의 목소리로 언어 간 번역을 돕도록 사용할 수 있습니다."라고 썼습니다. "노래의 멜로디뿐만 아니라 보컬 뒤에 숨겨진 감정 표현과도 일치하여 상징적 인 가수의 퍼포먼스를 재현 할 수 있습니다."