GoogleのHumtoSearch機能の仕組み

重要なポイント

  • Googleは、ユーザーがハミング、歌、口笛を吹いて曲を検索できる新しいツールをリリースしました。
  • 新しいツールは、機械学習を使用して、ハミングされたトラックを、継続的に更新される50万曲を超えるデータベースと照合します。
  • Googleユーザーは、毎月100回近く再生されている曲を尋ねます。
自宅でリラックスしながら携帯電話を使用している女性のショット
ラフロール/ゲッティイメージズ

グーグルは「検索するハム「イライラする問題を解決するために:曲が頭に詰まっていて、それが何と呼ばれているのか理解できない。

曲を見つけるためにハミングするというアイデアは信じられないほど単純に思えますが、なぜGoogleは2020年にこの機能をリリースするだけなのですか? さて、この方法で曲を識別することは実際にはかなり複雑であることがわかりました。これは、一部には、ハミングされたバージョンが元のトラックとはかなり異なる傾向があるためです。 AIブログの最近の投稿では、 Googleが機械学習をどのように使用したかを説明します この問題を解決し、最終的には、表現が正確でなくても、ハミング、口笛を吹いたり、メロディーを歌ったりして、人々が曲を見つけられるようにします。

「HumtoSearchの焦点は、人々が頭に詰まっている音楽を特定して見つけるのを支援することです」とGoogleの広報担当者は語った。 ライフワイヤー メールで。

ハミングを開始するだけ

グーグルのユーザーは、どの曲が毎月ほぼ1億回再生されているかを尋ねます、グーグルの副社長兼消費者ショッピングのゼネラルマネージャーであるアパルナ・チェンナプラガダは、 紹介するビデオは言った いくつかの新しい検索機能。 今、それを見つける方法があります。

NS "検索するハム「機能は、Googleのモバイルアプリ、Google検索ウィジェット、Googleアシスタントに組み込まれています。 アプリからアクセスするには、マイクアイコンをタップして、「この曲は何ですか?」と言います。 「曲を検索」ボタンを選択しても機能します。

この機能を正しく機能させるには、少なくとも10〜15秒間ハミングする必要があります。 Androidユーザーは、20以上の言語の曲を見つけるために口ずさむことができますが、iPhoneでは英語の曲のみが機能します。 このツールで曲をすぐに識別できるとは限りませんが、識別できると、結果はかなり良好になります。

「幅広い変数セット(トーン、ピッチ、ボリュームなど)の曲の半分以上が、アルゴリズムによって認識されます。 しかしもちろん、正確さはハミングの質、歌の種類などに依存します」とGoogleの広報担当者は語った。 言った ライフワイヤー メールで。 「しかし、それが認識されると、5つの答えのうちおよそ4つが正解です。」

ただし、音楽識別アプリでハミングが使用されたのはこれが初めてではありません。 SoundHound によって指摘されているように、同様の機能を提供します CNNビジネス、およびAndroidとiOSでも利用できます。 グーグルのスポークスパーソンによると、新機能はプライバシーの懸念を引き起こさず、「グーグルがオーディオベースのインタラクションを処理する方法を変える」こともないと彼らは語った。 ライフワイヤー メールで。

機械学習

コンセプトはシンプルですが、スタジオレコーディングを見つけるために曲をハミングすることは技術的にかなり困難です。 これにはいくつかの理由があります、とGoogleResearchのChristianFrankは次のように説明しています。 11月 12のブログ投稿。 まず第一に、ハミングされたバージョンの曲は実際の録音とは大きく異なる可能性があり、2つを一致させるのが困難になります。 だから、シャザムと 他のアプリのホスト レストランやその他の公共の場所で聞いた曲を特定するためにすでに存在しているので、ハミングされたメロディーを検索の基礎として使用するのは難しい場合があります。

「歌詞、バックグラウンドボーカル、楽器を使用すると、ミュージカルやスタジオレコーディングのオーディオは、ハミングされた曲とはかなり異なる可能性があります」とフランクは書いています。 「誤って、または設計上、誰かが曲の解釈を口ずさむと、ピッチ、調、テンポ、またはリズムがわずかに、または大幅に変化することがよくあります。」

一致するスタジオ録音の横にあるハミングクリップのGoogleによる視覚化。
グーグル

フランクは、ハミングされたバージョンの曲はオリジナルとは大きく異なる可能性があるため、過去の多くの方法には 人のハミングを、メロディーのみを含むバージョンの曲、またはを含むトラックと一致させる必要があります ハミング。 これらの曲を含むデータベースは制限される可能性があり、手動で更新する必要があるため、これは実際のユースケースを困難にしました。

Googleは、Hum to Search機能の場合、機械学習モデルを使用して音声を 曲のメロディーを表す「数字ベースのシーケンス」—それが言うことは、 "指紋。"

よりユーザーフレンドリー

GoogleのHumto Search機能で機械学習を使用すると、最終的にツールが現実の世界ではるかに使いやすくなります。 Hum to Searchは、検索者のハミングされた曲を実際の曲と一致させるため、ツールは新しい曲と連携できます。 それぞれのハミングバージョンで絶えず更新する必要があるデータベースの代わりに、リリースされた曲 追跡。 さらに、それを使用するのに絶対音感は必要ありません。

「現在のシステムは、継続的に更新している50万曲以上を含む曲データベースで高レベルの精度に達している」とGoogleはHum toSearchの発表で述べた。 「この曲のコーパスには、世界の多くのメロディーをさらに含めるために成長する余地がまだあります。」