AIがコンピューターの音声をより自然にする方法

December 02, 2021
にスマートでコネクテッドライフニュース

重要なポイント

企業は、コンピューターで生成された音声をよりリアルにする方法を模索しています。
NVIDIAは最近、AIを自分の声でトレーニングできるようにすることで、自然な音声の音をキャプチャできるツールを発表しました。
イントネーション、感情、音楽性は、コンピューターの声にはまだ欠けている機能だと、ある専門家は言います。

ラップトップコンピューターで音声録音を使用している人。 — CoWomen / Unsplash

コンピュータで生成されたスピーチは、すぐにもっと人間的に聞こえるかもしれません。

コンピューター部品メーカーのNVIDIAは最近、音声でAIをトレーニングできるようにすることで、自然な音声の音をキャプチャできるツールを発表しました。このソフトウェアは、ある話者の言葉を別の人の声を使って伝えることもできます。これは、コンピューターのスピーチをより現実的にするための急成長の一環です。

「高度な音声AIテクノロジーにより、ユーザーは自然に話すことができ、多くの問い合わせを1つの文にまとめ、元の問い合わせから詳細を絶えず繰り返す必要がなくなります。」 Michael Zagorsek音声認識会社SoundHoundの最高執行責任者は、電子メールのインタビューでLifewireに語った。

「現在ほとんどの音声AIプラットフォームで利用できるようになった複数の言語の追加により、デジタル音声アシスタントはより多くの地域でより多くの人口にアクセスできるようになります」と彼は付け加えました。

ロボスピーチライジング

AmazonのAlexaとAppleのSiriは、10年前のコンピューターの音声よりもはるかに優れていますが、すぐに本物の人間の声と間違われることはありません。

人工音声をより自然に聞こえるようにするために、NVIDIAのテキスト読み上げ研究チームはRAD-TTSモデルを開発しました。このシステムにより、個人は、ペーシング、調性、音色、およびその他の要素を含む自分の声でテキスト読み上げ（TTS）モデルを教えることができます。

同社は新しいモデルを使用して、I AmAIビデオシリーズのより会話的な音声ナレーションを構築しました。

「このインターフェースを使用すると、ビデオプロデューサーはビデオスクリプトを読んで自分自身を録音し、AIモデルを使用して彼のスピーチを女性のナレーターの声に変換することができます。このベースラインナレーションを使用して、プロデューサーはAIを声優のように演出し、合成されたものを微調整することができます。特定の単語を強調するためのスピーチと、ビデオのトーンをより適切に表現するためのナレーションのペースの変更」 NVIDIA

そのウェブサイトに書いた.

聞こえるより難しい

専門家によると、コンピューターで生成された音声を自然に聞こえるようにすることは難しい問題です。

「コンピューター版を作成するには、何百時間もの誰かの声を録音する必要があります。」ナジム・ラギモフ、テキスト読み上げソフトウェア会社KukarellaのCEOは、電子メールのインタビューでLifewireに語った。「そして、レコーディングはプロのスタジオでレコーディングされた高品質でなければなりません。質の高い音声が読み込まれ、処理される時間が長いほど、結果は良くなります。」

「テキスト読み上げは、ゲームで使用したり、音声障害のある個人を支援したり、ユーザーが自分の声で言語間を翻訳したりするのに役立ちます。」

イントネーション、感情、音楽性は、コンピューターの声にはまだ欠けている機能だとラギモフ氏は語った。

AIがこれらの欠落しているリンクを追加できれば、コンピューターで生成された音声は「実際の俳優の声と見分けがつかない」と彼は付け加えました。「それは進行中の作業です。他の声はラジオホストと競争することができます。すぐに、オーディオブックを歌ったり読んだりできる声が表示されます。」

音声技術は、幅広いビジネスで人気が高まっています。

「自動車業界は、より安全でより接続された運転体験を生み出す方法として、最近音声AIを採用しています」とZagorsek氏は述べています。

「それ以来、ブランドが顧客体験を改善する方法を模索しているため、音声アシスタントはますますユビキタスになっています。製品と相互作用するための、より簡単で、より安全で、より便利で、効率的で、衛生的な方法に対する需要に応え、サービス。」

通常、音声AIは、音声をテキストに変換することから始まる2段階のプロセスでクエリを応答に変換します自動音声認識（ASR）を使用し、そのテキストを自然言語理解（NLU）に入力します。モデル。

ホームスタジオで音声オーディオを録音している人。 — サウンドトラップ/スプラッシュ解除

SoundHoundのアプローチは、これら2つのステップを1つのプロセスに組み合わせて、リアルタイムで音声を追跡します。同社によれば、この手法により、音声アシスタントは、ユーザーが話し終える前であっても、ユーザーのクエリの意味を理解できるようになります。

組み込み専用（クラウド接続は不要）からハイブリッドまでのさまざまな接続オプションの可用性を含む、コンピューター音声の将来の進歩（組み込みプラスクラウド）およびクラウドのみ「コスト、プライバシー、および処理能力の可用性の観点から、業界全体の企業により多くの選択肢を提供します」、Zagoresk 言った。

NVIDIAは、そのニュースAIモデルはナレーションの仕事を超えていると述べました。

「テキスト読み上げは、ゲームで、音声障害のある個人を支援するために、またはユーザーが自分の声で言語間を翻訳するのを支援するために使用できます」と同社は書いています。「歌のメロディーだけでなく、ボーカルの背後にある感情的な表現にもマッチする、象徴的な歌手のパフォーマンスを再現することさえできます。」