コンピュータとの会話がより現実的になる可能性があります

April 05, 2022
にスマートでコネクテッドライフニュース

Metaは、AIを使用して、音声で感情を表現できるプログラムを作成しています。
同社のAIチームは、笑い声、あくび、泣き声、「自発的なおしゃべり」などの表現力豊かな発声のリアルタイムでのモデリングが進歩したと語った。
AIは、音声認識の改善にも使用されています。

ホームオフィスの設定でラップトップで作業しているときにスマートスピーカーとチャットしている人。 — ルイス・アルバレス/ゲッティイメージズ

人工知能（AI）の力のおかげで、すぐにコンピューターとより自然なチャットができるようになるかもしれません。

メタは、その中で大きな進歩を遂げたと述べましたより現実的なAI生成音声システムを作成するための取り組み. 同社のAIチームは、リアルタイムの「自発的なおしゃべり」に加えて、笑い声、あくび、泣き声などの表現力豊かな発声をモデル化する機能が進歩したと語った。

「どの会話でも、人々はイントネーションのような非言語的な信号でいっぱいの感情的なものを交換します表現、一時停止、アクセント、リズム-これらはすべて人間の相互作用にとって重要です」とチームは最近書いたブログ投稿。「しかし、今日のAIシステムは、書かれたテキストからのみ学習するため、これらの豊かで表現力豊かな信号をキャプチャできません。テキストは、私たちの言うことをキャプチャしますが、私たちの言う方法はキャプチャしません。」

よりスマートなスピーチ

ブログ投稿で、Meta AIのチームは、従来のAIシステムの制限を克服するために取り組んでいると述べました。イントネーション、感情表現、一時停止、アクセント、リズム。システムは、書かれたテキストからしか学習できないため、抑制されています。

しかし、Metaの作業は、AIモデルが自然言語処理モデルを使用して、話し言葉の完全な性質をキャプチャできるため、以前の取り組みとは異なります。メタ研究者によると、新しいモデルにより、AIシステムは、退屈や皮肉など、伝えたい感情を伝えることができます。

「近い将来、テキストレス技術を適用して、どちらも必要とせずに有用なダウンストリームアプリケーションを構築することに焦点を当てます。質問応答（「天気はどう？」など）など、リソースを大量に消費するテキストラベルまたは自動音声認識システム（ASR）」とチームは書いています。ブログ投稿で。「スピーチの韻律は文をよりよく解析するのに役立つと信じています。これにより、意図の理解が容易になり、質問応答のパフォーマンスが向上します。」

AIパワーズの理解

コンピューターは意味の伝達が向上しているだけでなく、音声認識の改善を促進するためにもAIが使用されています。

コンピューター科学者は、少なくとも1952年に3つのベル研究所が設立されて以来、コンピューターの音声認識に取り組んできました。研究者たちは、AIの最高技術責任者である1桁の数字を認識できるシステムを作成しましたダイナミクス、ライアン・モンスレート、Lifewireへのメールで述べた。 1990年代までに、音声認識システムは市販されていましたが、それでもエラー率が高く、ヘルスケアなどの非常に特殊なアプリケーションドメイン以外での使用を思いとどまらせることができました。

「ディープラーニングモデルにより、アンサンブルモデル（Microsoftのモデルなど）が超人的なパフォーマンスを達成できるようになりました。音声認識、私たちは大規模なコンピューターとの話者に依存しない口頭でのコミュニケーションを可能にする技術を持っています」とMontserrat 言った。「次の段階では、SiriまたはGoogleのAIアシスタントを使用するすべての人がこのレベルの音声認識にアクセスできるように、コストを削減する必要があります。」

家族の夕食の席でスマートスピーカーと対話する幼い子供。 — オスカーウォン/ゲッティイメージズ

AIは、学習を通じて時間の経過とともに向上する可能性があるため、音声認識に役立ちます。アリエル・ウトニックAI音声会社Verbit.aiのチーフレベニューオフィサー兼ゼネラルマネージャーは、電子メールのインタビューでLifewireに語った。たとえば、Verbitは、自社のAIテクノロジーがバックグラウンドノイズを検出してフィルターで除去し、エコーと転写を行うと主張しています。アクセントに関係なく、ライブおよび録画されたビデオから詳細でプロフェッショナルなトランスクリプトとキャプションを生成するスピーカーオーディオ。

しかし、Utnikは、現在のほとんどの音声認識プラットフォームは75〜80％しか正確ではないと述べました。

「高品質で最高精度の最終的な筆記録を確保するには、筆記者、校正者、編集者による個人的なレビューが必要であるため、AIが人間に完全に取って代わることは決してありません」と彼は付け加えました。

より良い音声認識は、ハッカーを防ぐためにも使用できます。サンジェイグプタ、音声認識会社MitekSystemsの製品および企業開発担当副社長は電子メールで述べた。調査によると、2年以内に、成功したすべてのアカウント乗っ取り攻撃の20％が合成音声拡張を使用するようになると彼は付け加えました。

「これは、ディープフェイク技術がより高度になるにつれて、画像やビデオのディープフェイクと一緒にこれらの戦術に対抗できる高度なセキュリティを同時に作成する必要があることを意味します」とGupta氏は述べています。「音声スプーフィングに対抗するには、ライブボイスと、録音された、合成された、またはコンピュータで生成されたバージョンのボイスを区別できる、ライブネス検出テクノロジーが必要です。」