곧, 당신은 당신이 컴퓨터와 대화하고 있다는 것을 모를 것입니다

주요 내용

  • 컴퓨터 생성 음성을 실제와 구별할 수 없는 날이 빠르게 다가오고 있습니다.
  • 구글은 최근 보다 자연스러운 대화를 가능하게 하는 모델인 LaMDA를 공개했다.
  • 사람과 같은 음성을 생성하는 데에도 막대한 처리 능력이 필요합니다.
마이크에 대고 말하는 로봇.

Devrimb / 게티 이미지

지금은 컴퓨터와 대화할 때 구분하기 쉽지만 최근 AI의 발전으로 인해 곧 바뀔 수 있습니다.

구글은 최근 LaMDA를 발표했다., 회사가 주장하는 실험적 모델은 대화형 AI 비서의 능력을 향상시키고 보다 자연스러운 대화를 가능하게 할 수 있습니다. LaMDA는 사전 교육 없이 거의 모든 것에 대해 결국 정상적으로 대화하는 것을 목표로 합니다.

그것은 당신이 인간과 대화하고 있는지 궁금하게 만들 수 있는 점점 더 많은 AI 프로젝트 중 하나입니다.

제임스 카플란(James Kaplan) 최고경영자(CEO)는 "향후 12개월 이내에 사용자들은 새롭고 더 감성적인 목소리에 노출되고 익숙해질 것으로 예상한다"고 말했다. 대화형 AI 가상 음성 비서 및 검색 엔진인 MeetKai, 이메일 인터뷰에서 말했다.

"일단 이런 일이 발생하면 오늘날의 합성된 연설이 오늘날 우리에게 2000년대 초반의 연설처럼 들리게 될 것입니다."

캐릭터가 있는 음성 비서

Google의 LaMDA는 Google Research에서 개발한 신경망 아키텍처인 Transformer를 기반으로 합니다. 다른 언어 모델과 달리 Google의 LaMDA는 실제 대화에 대해 훈련되었습니다.

자연스럽게 들리는 AI 연설을 만들기 위한 도전의 일부는 대화의 개방형 특성입니다. Google의 Eli Collins 블로그 게시물에 쓴.

한 무리의 사람들과 이야기하는 휴머노이드 로봇.

그렘린 / 게티 이미지

그는 "친구와 TV 프로그램에 대해 이야기하는 것은 프로그램이 촬영된 국가에 대한 토론으로 발전할 수 있고 그 나라 최고의 지역 요리에 대한 토론으로 정착할 수 있다"고 덧붙였다.

로봇의 음성으로 모든 것이 빠르게 움직이고 있습니다. 의 매니징 파트너인 Eric Rosenblum은 칭위안 벤처스, 대화형 AI에 투자하는 는 컴퓨터 지원 음성의 가장 근본적인 문제 중 일부가 사실상 해결되었다고 말했습니다.

예를 들어, 음성 이해의 정확도는 전사가 수행하는 전사와 같은 서비스에서 이미 매우 높습니다. 소프트웨어 Otter.ai 또는 의료 기록 DeepScribe.

"하지만 다음 국경은 훨씬 더 어렵습니다."라고 그는 덧붙였습니다.

"자연어 처리를 넘어선 문제인 문맥에 대한 이해를 유지하면서, 인간과 상호 작용하는 컴퓨터와 같은 공감은 좌절, 분노, 조급함, 등. 이 두 가지 문제가 모두 해결되고 있지만 둘 다 만족스러운 것과는 거리가 멀다"고 말했다.

신경망이 핵심

실제와 같은 음성을 생성하기 위해 기업은 계층을 통해 데이터를 분류하는 기계 학습의 한 형태인 심층 신경망과 같은 기술을 사용하고 있습니다. TTS(텍스트 음성 변환) 소프트웨어를 개발하는 회사인 ReadSpeaker, 이메일 인터뷰에서 말했다.

"이러한 레이어는 신호를 정제하여 더 복잡한 분류로 분류합니다."라고 그는 덧붙였습니다. "결과는 기이하게 인간처럼 들리는 합성 음성입니다."

개발 중인 또 다른 기술은 프로소디 전송, 하나의 텍스트 음성 변환 음성의 소리를 다른 음성의 말하기 스타일과 결합하는 것을 포함한다고 Muldoon은 말했습니다. 또한 새로운 신경 TTS(텍스트 음성 변환) 음성을 생성하는 데 필요한 훈련 데이터의 양을 줄이는 전이 학습이 있습니다.

Kaplan은 인간과 같은 음성을 생성하는 데에도 엄청난 처리 능력이 필요하다고 말했습니다. 기업들은 일반 프로세서와 함께 작동하는 맞춤형 모듈인 신경 가속기 칩을 개발하고 있습니다.

"이 단계의 다음 단계는 이러한 칩을 더 작은 하드웨어에 넣는 것입니다. 현재 비전용 AI가 필요할 때 카메라에 이미 수행되고 있기 때문입니다."라고 그는 덧붙였습니다. "이러한 유형의 컴퓨팅 기능을 헤드폰 자체에서 사용할 수 있게 되기까지는 그리 오래 걸리지 않을 것입니다."

AI 기반 음성 개발에 대한 한 가지 문제는 모든 사람이 다르게 말하므로 컴퓨터가 우리를 이해하는 데 어려움을 겪는 경향이 있다는 것입니다.

"조지아 vs. 보스턴 대 노스다코타 억양과 영어가 기본 언어인지 여부"라고 음성 검색 분석을 담당하는 Monica Dema는 MDinc, 이메일에서 말했다. "전 세계적으로 생각하면 독일, 중국, 인도의 모든 지역에 대해 이 작업을 수행하는 것은 비용이 많이 들지만 이것이 수행되지 않거나 수행할 수 없음을 의미하지는 않습니다."