마이크로소프트, 4가지 새로운 AI 텍스트 음성 변환 기능 추가

September 22, 2023
에창 중앙

당신이 알아야 할 것

Microsoft는 최근 대화 시나리오용으로 설계된 4가지 "초현실적인" 텍스트 음성 변환 음성을 출시했습니다.
여기에는 en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNerual 및 zh-CN-YunjieNeural이 포함되며, 이는 미국 동부, 동남아시아 및 서유럽의 세 지역에서 공개 미리 보기로 제공됩니다.
Microsoft는 새로운 음성이 "실제 음성 상호 작용이 필요한 모든 응용 프로그램"을 보완할 것이라고 자랑합니다.
새로운 목소리는 상호 작용을 현실적이고 더욱 매력적으로 만들어 상호 작용을 향상하는 데 도움이 될 것입니다.

Microsoft에 따르면 전 세계적으로 AI와 그 기능이 기하급수적으로 성장함에 따라 "텍스트 음성 변환 음성의 자연스러움과 표현력"에 대한 수요가 증가하고 있습니다. 회사가 최근 발표한 네 가지 새로운 목소리, en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNerual 및 zh-CN-YunjieNeural을 포함합니다.

거대 기술 기업은 새로운 음성이 사용자 상호 작용이 "더 현실적이고, 생생하고 매력적입니다." 네 가지 새로운 목소리는 미국 동부, 동남아시아 및 서유럽의 세 지역에서 공개 미리 보기로 제공됩니다.

일반적인 목적으로 설계된 기존 음성과 대화에 최적화된 새로운 음성 간의 차이점을 명확하게 하기 위해 Microsoft는 또한 여러 데모 새로 통합된 목소리의 다양한 맛을 선보입니다.

Microsoft는 다음을 통해 음성을 기존 애플리케이션에 통합하는 것이 가능하다고 설명했습니다. Azure OpenAI, Azure Speech SDK, REST API를 사용하고 Azure Bot Framework의 기능을 활용하여 새로운 TTS(텍스트 음성 변환) 음성을 사용할 수 있는 지능형 봇을 개발합니다.

우리는 각 목소리의 페르소나를 마치 삶에 대해 친절하고 낙관적이며 항상 다른 사람을 돕고 흥미롭거나 실용적인 지식을 공유하기를 열망하는 실제 사람인 것처럼 만드는 것부터 시작했습니다. 목소리의 말하는 스타일은 마치 지인과 차 한잔 마시며 대화하는 듯한 느낌을 주면서 자연스럽고 과장되지 않은 톤을 유지하고 있다. 또한 AI 음성 품질을 향상시키기 위해 TTS(텍스트 음성 변환) 모델링 기술을 지속적으로 향상하고 있습니다. DelightfulTTS 2 및 MuLanTTS와 같은 최신 프로젝트는 품질 격차를 크게 줄였습니다. AI 음성과 전문적인 인간 녹음 사이, 그 어느 때보다 자연스럽고 사실적인 음성을 만들어냅니다. 전에. 이러한 기술 발전은 새로운 AI 목소리가 구축되는 기반이 됩니다.

마이크로소프트

자연스럽고 표현력 있는 터치 추가

AI는 여러 번의 승리와 좌절을 누렸으며 후자에 대한 경향이 있습니다. 챗봇이 유용하다는 여러 보고가 있었습니다. 점점 더 멍청해지고 그리고 또한 정확성 및 사용자 기반 감소.

아마도 새로운 목소리의 데뷔는 이러한 추세에 긍정적인 영향을 미칠 것입니다. 마이크로소프트는 "140개 이상의 언어와 로케일을 포괄하는 400개 이상의 신경 음성을 제공"하며 이러한 수치는 시간이 지남에 따라 확대될 것으로 보입니다.