リアルタイムの字幕と翻訳がビデオチャットの未来になるかもしれない

重要なポイント

  • Naviは、SharePlayとAppleの組み込みの音声テキスト変換を使用して、FaceTimeで字幕と翻訳を提供します。
  • 完璧にはほど遠いですが、すでに十分です。
  • 字幕はアクセシビリティに最適です。
コンピューターの画面から見た多文化ビデオ通話。

ジャスミンマーダン/ゲッティイメージズ

ナビはアプリです これにより、FaceTime通話にライブ字幕とリアルタイムの翻訳が追加されます。

このアプリは、SharePlayと組み込みの音声認識を使用して、FaceTime通話に20言語の字幕と翻訳を追加します。 これはSharePlayの素晴らしい使い方であり、私たちのほとんどは、他の場所の人々と同期した映画を見るギミックな方法と見なしています。 まだ翻訳者を解雇する必要はないかもしれませんが、これをうまく行うアプリはめちゃくちゃ便利かもしれません。

「FaceTime通話から音声が聞こえません」とNavi開発者は書いています TwitterのJordiBruin、「ただし、SharePlayを使用して、通話の参加者間で共有します。」

SharePlay

SharePlayはiOS15の新機能です そして、FaceTime通話で物事を共有および同期できるmacOS12.1。 上記の映画鑑賞の例では、たとえば、FaceTime通話で全員がチャットしている間、参加者は誰でも映画を一時停止または再生できます。 FaceTimeビデオは、小さなフローティングのピクチャーインピクチャーパネルで開いたままになり、各参加者はデバイス上でローカルにアプリを実行します。 SharePlayの秘訣は、これらのローカルアプリで起こっていることをすべて同期することです。そのため、映画、Fitness +ワークアウト、スプレッドシートなど、誰もが体験を共有できます。

Naviは同じ技術を使用していますが、通話中のアプリだけが映画ではなく、リアルタイムの翻訳エンジンです。 これを使用するには、FaceTime通話中にアプリを起動し、[字幕をオンにする]ボタンをタップします。 その後、他の参加者もアクションに参加して、現在のスピーカーのライブ字幕を見ることができます。 誰かが独り言を言っている場合、彼らの吹き出しは成長し、少し長く立ち往生します。

Naviアプリのスクリーンショット。

聴覚障害者にとって、これは人に電話をかけるかどうかの違いを意味する可能性があります。 そして、誰にとっても、それはあなたが言語を共有しない人々の間で有益な会話をすることができることを意味します。

ユニバーサルテキスト

インターネットはテキストに基づいて構築されており、それは素晴らしいことです。 小さくて、作成、読み取り、翻訳が簡単です。 合成音声に変換するのも簡単です。 その結果、どこからでも誰でも会話に参加できます。 視覚や聴覚に障害のある優れたユーザー補助ツールを備えたデバイスを使用している限り、言語は障壁ではなく、難聴やあらゆる種類の盲目でもありません。

しかし、話された言葉は処理するのがはるかに困難です。 音声からテキストへのディクテーションは印象的ですが、一般的な音声認識が一般的に使用できるようになったのはごく最近のことです。Appleの翻訳アプリがその良い例です。 iOS 15で導入され、リアルタイムの音声翻訳を提供します。 それでも海外での休暇をとるなら、それは完璧でしょう。

現在、私たちは仕事や友人や家族と連絡を取り合うためにビデオをますます使用しています。 将来どのように仕事をしても、ビデオ通話の障壁は徹底的に打ち破られました。 今では一般的なツールですが、書面によるコミュニケーションツールの精巧さはあまりありません。

リアルタイムの字幕と翻訳を提供するNaviのようなものは重要かもしれません。 アクセシビリティは1つの側面ですが、あなたが話さない言語の人々と会話する能力は、驚くべき程度に国際ビジネスを開きます。

Naviアプリのスクリーンショット。

ナビ

動作中

アプリ開発者、作成者、補聴器ユーザーとNaviをテストしました グラハムバウアー. それはかなり良いですが、まだ重要なタスクの準備ができていません。 いくつかの文字起こしは、コミカルに悪く、下品すぎて関連付けることができませんでした。 しかし、私たちの会話が進むにつれて、彼のスピーチを正確に認識することがはるかに良くなりました。 iOSディクテーションエンジンは時間の経過とともにあなたの声に適応するので、それは理にかなっています。

翻訳の品質は入力の精度に依存しますが、翻訳も機能しました。

この種のテクノロジーを将来のAppleGlassesや、今週取り組んでいると噂されているAR / VR製品に簡単に投影できます。

「これがARメガネで機能しているのを見ることができます」とバウアーは会話の中で言いました。 「通常の聴力を持っていても、映画の字幕を好む人もいます。 これは実生活の字幕のようなものです。」

印象的な技術デモですが、Naviはまだありません。 信頼できるビジネスでの使用のために、Appleの最初の音声認識はもっと正確にならなければならないでしょう。 しかし、速度的には問題ありません。翻訳は他のどの翻訳よりも優れています。

しかし、私たちは今道を進んでおり、この種のことはさらに良くなるでしょう。