Google Gemini はバックミラーに ChatGPT を搭載しようとしている

click fraud protection

知っておくべきこと

  • Google が AI エコシステムを強化する新しい AI モデル (GPT-4 と GPT-3 を思い浮かべてください) をリリースしたため、AI 競争は激化しています。
  • Google のベンチマークでは、Gemini がいくつかのパフォーマンス指標で GPT-4V を上回っていることが示されています。
  • Gemini には、Ultra、Pro、Nano の 3 つのフォーマットがあります。
  • Pixel 8 Pro は、Gemini Nano を通じて Gemini を実装する最初の Pixel になります。
  • Gemini Pro は、12 月 1 日に Google AI Studio の Gemini API を通じて利用可能になります。 13日。

最近の サム・アルトマン氏の解雇と再雇用によるOpenAI社の混乱, わずか数週間後、Google は GPT-4V より強力と思われる新しい AI モデルを発表したため、Google は水中の血の匂いを嗅いだに違いありません。

グーグル Google Geminiを発表 Google にとって AI の未来として、今日から Bard が強化され、間もなく Google のすべての AI 製品に導入されることになります。 Ultra、Pro、Nano の 3 つの異なるサイズのモデルを備えた Gemini 1.0 は、Google の他の製品と同様にユビキタスになるように構築されています。

Google Gemini とは何ですか?

GoogleはGeminiを「これまで構築した中で最も有能で汎用的なモデル」と呼んでいる。 バックエンドモデルです これは Google の AI 製品群を強化することになるが、3 つのモデルをリリースするという決定は サイズ。

  • ジェミニウルトラ — 非常に複雑なタスクに対応する、Google の最大かつ最も機能的なモデル。
  • ジェミニプロ — 幅広いタスクにわたって拡張するための Google の最適なモデル。
  • ジェミニナノ — Google のオンデバイス タスク向けの最も効率的なモデル。

Google が宣伝している Gemini のパフォーマンス数値の一部は非常に印象的ですが、テクノロジーに関して私が学んだことがあるとすると、メーカーのベンチマークを信用してはいけないということです。 そうは言っても、Gemini が実際に機能しているのを見ると、その有効性を疑問視するのは困難です。 @rowancheung on X(Twitter)

動画を投稿しました ジェミニの動作を示しており、その結果は驚くべきものに他なりません。

🚨 速報: Google DeepMind は、ChatGPT の最大の競合相手である Gemini を明らかにしました。 Gemini は、MMLU において人間の専門家を上回るパフォーマンスを示し、90% 以上のスコアを獲得した最初のマルチモーダル AI です。 pic.twitter.com/A7It1hPKGQ2023 年 12 月 6 日

続きを見る

Google Gemini はどのように機能しますか?

Googleは、掲載したベンチマークを通じてGeminiを地球上で最高のAIモデルとして宣伝している。 これらのベンチマークがサードパーティのテストに耐えられる場合、少なくとも OpenAI がリリースされるまでは、Gemini が市場のトップとなるでしょう。 チャットGPT-5. 現在構造化されている経済の大原則は、企業が最高の製品を手に入れるために競争すると、通常は消費者が勝つということです。

ジェミニはイノベーションを推進し続けるためにOpenAIを推進する必要がありますが、明らかに、安全性への適切な考慮を欠いた無謀な研究については、 サティア・ナデラのようなCEOはAIを原子力と比較する.

Gemini Ultra は、MMLU (大規模マルチタスク言語理解) において人間の専門家を上回るパフォーマンスを示した最初のモデルです。 数学、物理学、歴史、法律、医学、倫理などの 57 科目を組み合わせて、世界の知識と問題解決力をテストします。 能力。

グーグル

Google Gemini は、Google が示したほとんどのベンチマークで ChatGPT-4V を上回りました。 場合によっては4%以上のポイントがつきます。 ベンチマークの中で最も興味深い名前の HellaSwag は、Gemini のパフォーマンスが ChatGPT-4V に比べて劣っていました。 ベンチマークの完全なリストをご覧ください。

スワイプして水平にスクロールします
能力 基準 説明 ジェミニウルトラ GPT-4V
一般的な MMLU 57 科目の質問を表現 (含む) STEM、人文科学、その他) 90.0% CoT@32* 86.4% 5 ショット* (報告済み)
推論 ビッグベンチハード 多段階の推論を必要とする多様な挑戦的なタスクのセット 83.6% 3ショット 83.1% 3 ショット (API)、
行 2 - セル 0 落とす 読解力(F1スコア) 82.4 バリアブルショット 80.9 スリーショット (報告済み)
行 3 - セル 0 ヘラスワッグ 日常業務における常識的な推論 87.8% 10 ショット* 95.3% 10 ショット* (報告済み)
数学 GSM8K 基本的な算術操作 (含む) 小学校の算数の問題) 94.4% maj1@32 92.0% 5 ショット CoT (報告済み)
行 5 - セル 0 数学 難しい数学の問題 ( 代数、幾何学、微積分以前など) 53.2% 4ショット 52.9% 4 ショット (API)
コード HumanEval Pythonコード生成 74.4% ゼロショット (IT)* 67.0% ゼロショット* (報告済み)
行 7 - セル 0 Natural2Code Python コードの生成。 HumanEval に似た新しい保持データセット、Web 上には漏洩していない 74.9% ゼロショット 73.9% ゼロショット (API)
行 8 - セル 0 行 8 - セル 1 行 8 - セル 2 行 8 - セル 3 行 8 - セル 4

これらのスコアは印象的ですが、平均的な消費者にとってはおそらくあまり意味がありません。 Google が Gemini Nano を Pixel 8 Pro に搭載することは、オンデバイス タスクのモデルであるため、私にとってはさらにエキサイティングです。 多くのメーカーが取り組み始めています NVIDIA の TensorRT-LLM などのオンデバイス AI 機能を追加します 彼らが作るデバイスに。 私にとって、これは AI の将来にとってよりエキサイティングな見通しであり、真のパーソナル アシスタントを携帯電話に組み込み、個人のニーズに合わせて最適に機能するように AI モデルをカスタマイズできるようになります。

これらの LLM AI の将来のアプリケーションの中で最も優れた、そして可能性が高いものの 1 つは、80 年以上前のスタートレック以来、私たち全員が夢見てきたものです。 世界共通言語の翻訳者。 ChatGPT はすでに翻訳者として機能しますが、翻訳を生成するにはかなり長い処理時間がかかります。 今はあります 元の俳優の声をそのままにしながら、声の演技を別の言語に翻訳できる AI モデル. 私はアニメだけでなく、日本や韓国のドラマも大好きです。 テレビのボタンを押すと、オリジナルの俳優の声が聞こえますが、英語で聞こえるだけです。 リアルタイム。 これらの巨大企業が AI の進歩で互いに勝とうと競争するにつれ、この現実はますます近づいています。