すぐに、あなたはあなたがコンピュータと話していることを知らないかもしれません

重要なポイント

  • コンピューターで生成された音声と本物を区別できない日が近づいています。
  • Googleは最近、より自然な会話を可能にするモデルであるLaMDAを発表しました。
  • 人間のような音声を生成するには、膨大な処理能力も必要です。
マイクに向かって話すロボット。

Devrimb /ゲッティイメージズ

今のところ、コンピューターと話しているときは簡単にわかりますが、最近のAIの進歩により、すぐに変わる可能性があります。

Googleは最近LaMDAを発表しました、同社が主張する実験モデルは、会話型AIアシスタントの能力を高め、より自然な会話を可能にする可能性があります。 LaMDAは、事前のトレーニングなしで、最終的にはほとんどすべてについて正常に会話することを目指しています。

これは、人間と話しているのかどうか疑問に思う可能性のあるAIプロジェクトの数が増えていることの1つです。

「私の見積もりでは、今後12か月以内に、ユーザーはこれらの新しい、より感情的な声に触れ、慣れ始めるでしょう」と、のCEOであるJamesKaplan氏は述べています。 会話型AI仮想音声アシスタントおよび検索エンジンであるMeetKai、電子メールのインタビューで言った。

「これが発生すると、今日の合成音声は、2000年代初頭の音声が今日私たちに聞こえるようにユーザーに聞こえます。」

キャラクター付き音声アシスタント

GoogleのLaMDAは、GoogleResearchによって発明されたニューラルネットワークアーキテクチャであるTransformer上に構築されています。 他の言語モデルとは異なり、GoogleのLaMDAは実際の対話で訓練されました。

自然な響きのAIスピーチを作成するための課題の一部は、会話の自由な性質、GoogleのEliCollinsです。 ブログ記事に書いた.

人々のグループと話しているヒューマノイドロボット。

グレムリン/ゲッティイメージズ

「テレビ番組についての友人とのチャットは、その国の最高の郷土料理についての議論に落ち着く前に、番組が撮影された国についての議論に発展する可能性があります」と彼は付け加えました。

物事はロボットのスピーチで速く動いています。 エリックローゼンブラム、のマネージングパートナー Tsingyuanベンチャーズ会話型AIに投資している、は、コンピューター支援音声の最も基本的な問題のいくつかは事実上解決されていると述べました。

たとえば、音声を理解する際の正解率は、によって行われる文字起こしなどのサービスではすでに非常に高いです。 ソフトウェアOtter.ai またはによって取られた医療メモ DeepScribe.

「しかし、次のフロンティアははるかに難しい」と彼は付け加えた。

「自然言語処理をはるかに超えた問題である文脈の理解を維持すること、 コンピュータが人間と相互作用するなどの共感は、欲求不満、怒り、焦り、 NS。 これらの問題は両方とも取り組んでいますが、どちらも満足のいくものにはほど遠いです。」

ニューラルネットワークが鍵です

実物そっくりの声を生成するために、企業はディープニューラルネットワークのようなテクノロジーを使用しています。これは、データをレイヤーで分類する機械学習の一種です。 テキスト読み上げソフトウェアを開発する会社、ReadSpeaker、電子メールのインタビューで言った。

「これらの層は信号を洗練し、より複雑な分類に分類します」と彼は付け加えました。 「その結果、人間のように不思議なことに聞こえる合成音声が得られます。」

開発中の別の技術は 韻律転送マルドゥーン氏によると、これには、あるテキスト読み上げ音声の音と別の音声の話し方を組み合わせることが含まれます。 転送学習もあります。これにより、新しいニューラルテキスト読み上げ音声を生成するために必要なトレーニングデータの量が削減されます。

カプラン氏によると、人間のような音声を生成するには、膨大な処理能力も必要です。 企業は、通常のプロセッサと連携して動作するカスタムモジュールであるニューラルアクセラレータチップを開発しています。

「これの次の段階は、これらのチップをより小さなハードウェアに配置することです。これは、現在、視覚用AIが必要なカメラですでに行われているためです」と彼は付け加えました。 「このタイプのコンピューティング機能がヘッドホン自体で利用できるようになるまで、そう長くはかからないでしょう。」

AI主導のスピーチを開発する上での課題の1つは、話し方が人によって異なるため、コンピューターが私たちを理解するのに苦労する傾向があることです。

「ジョージア対を考えてください。 ボストン対。 ノースダコタ州のアクセント、そして英語があなたの第一言語であるかどうか」と、音声検索分析に取り組んでいるモニカ・デマは MDinc、メールで言った。 「世界的に考えると、ドイツ、中国、インドのすべての地域でこれを行うにはコストがかかりますが、それができない、またはできないという意味ではありません。」