Google Gemini はバックミラーに ChatGPT を搭載しようとしている

December 07, 2023
に中央窓

click fraud protection

知っておくべきこと

Google が AI エコシステムを強化する新しい AI モデル (GPT-4 と GPT-3 を思い浮かべてください) をリリースしたため、AI 競争は激化しています。
Google のベンチマークでは、Gemini がいくつかのパフォーマンス指標で GPT-4V を上回っていることが示されています。
Gemini には、Ultra、Pro、Nano の 3 つのフォーマットがあります。
Pixel 8 Pro は、Gemini Nano を通じて Gemini を実装する最初の Pixel になります。
Gemini Pro は、12 月 1 日に Google AI Studio の Gemini API を通じて利用可能になります。 13日。

最近のサム・アルトマン氏の解雇と再雇用によるOpenAI社の混乱, わずか数週間後、Google は GPT-4V より強力と思われる新しい AI モデルを発表したため、Google は水中の血の匂いを嗅いだに違いありません。

グーグル Google Geminiを発表 Google にとって AI の未来として、今日から Bard が強化され、間もなく Google のすべての AI 製品に導入されることになります。 Ultra、Pro、Nano の 3 つの異なるサイズのモデルを備えた Gemini 1.0 は、Google の他の製品と同様にユビキタスになるように構築されています。

Google Gemini とは何ですか?

GoogleはGeminiを「これまで構築した中で最も有能で汎用的なモデル」と呼んでいる。バックエンドモデルですこれは Google の AI 製品群を強化することになるが、3 つのモデルをリリースするという決定はサイズ。

ジェミニウルトラ — 非常に複雑なタスクに対応する、Google の最大かつ最も機能的なモデル。
ジェミニプロ — 幅広いタスクにわたって拡張するための Google の最適なモデル。
ジェミニナノ — Google のオンデバイスタスク向けの最も効率的なモデル。

Google が宣伝している Gemini のパフォーマンス数値の一部は非常に印象的ですが、テクノロジーに関して私が学んだことがあるとすると、メーカーのベンチマークを信用してはいけないということです。そうは言っても、Gemini が実際に機能しているのを見ると、その有効性を疑問視するのは困難です。 @rowancheung on X(Twitter)

動画を投稿しましたジェミニの動作を示しており、その結果は驚くべきものに他なりません。

🚨 速報: Google DeepMind は、ChatGPT の最大の競合相手である Gemini を明らかにしました。 Gemini は、MMLU において人間の専門家を上回るパフォーマンスを示し、90% 以上のスコアを獲得した最初のマルチモーダル AI です。 pic.twitter.com/A7It1hPKGQ2023 年 12 月 6 日

続きを見る

Google Gemini はどのように機能しますか?

Googleは、掲載したベンチマークを通じてGeminiを地球上で最高のAIモデルとして宣伝している。これらのベンチマークがサードパーティのテストに耐えられる場合、少なくとも OpenAI がリリースされるまでは、Gemini が市場のトップとなるでしょう。チャットGPT-5. 現在構造化されている経済の大原則は、企業が最高の製品を手に入れるために競争すると、通常は消費者が勝つということです。

ジェミニはイノベーションを推進し続けるためにOpenAIを推進する必要がありますが、明らかに、安全性への適切な考慮を欠いた無謀な研究については、サティア・ナデラのようなCEOはAIを原子力と比較する.

Gemini Ultra は、MMLU (大規模マルチタスク言語理解) において人間の専門家を上回るパフォーマンスを示した最初のモデルです。数学、物理学、歴史、法律、医学、倫理などの 57 科目を組み合わせて、世界の知識と問題解決力をテストします。能力。

グーグル

Google Gemini は、Google が示したほとんどのベンチマークで ChatGPT-4V を上回りました。場合によっては4％以上のポイントがつきます。ベンチマークの中で最も興味深い名前の HellaSwag は、Gemini のパフォーマンスが ChatGPT-4V に比べて劣っていました。ベンチマークの完全なリストをご覧ください。

スワイプして水平にスクロールします

能力	基準	説明	ジェミニウルトラ	GPT-4V
一般的な	MMLU	57 科目の質問を表現 (含む) STEM、人文科学、その他）	90.0% CoT@32*	86.4% 5 ショット* (報告済み)
推論	ビッグベンチハード	多段階の推論を必要とする多様な挑戦的なタスクのセット	83.6% 3ショット	83.1% 3 ショット (API)、
行 2 - セル 0	落とす	読解力（F1スコア）	82.4 バリアブルショット	80.9 スリーショット (報告済み)
行 3 - セル 0	ヘラスワッグ	日常業務における常識的な推論	87.8% 10 ショット*	95.3% 10 ショット* (報告済み)
数学	GSM8K	基本的な算術操作 (含む) 小学校の算数の問題）	94.4% maj1@32	92.0% 5 ショット CoT (報告済み)
行 5 - セル 0	数学	難しい数学の問題 ( 代数、幾何学、微積分以前など)	53.2% 4ショット	52.9% 4 ショット (API)
コード	HumanEval	Pythonコード生成	74.4% ゼロショット (IT)*	67.0% ゼロショット* (報告済み)
行 7 - セル 0	Natural2Code	Python コードの生成。 HumanEval に似た新しい保持データセット、Web 上には漏洩していない	74.9% ゼロショット	73.9% ゼロショット (API)
行 8 - セル 0	行 8 - セル 1	行 8 - セル 2	行 8 - セル 3	行 8 - セル 4

これらのスコアは印象的ですが、平均的な消費者にとってはおそらくあまり意味がありません。 Google が Gemini Nano を Pixel 8 Pro に搭載することは、オンデバイスタスクのモデルであるため、私にとってはさらにエキサイティングです。多くのメーカーが取り組み始めています NVIDIA の TensorRT-LLM などのオンデバイス AI 機能を追加します彼らが作るデバイスに。私にとって、これは AI の将来にとってよりエキサイティングな見通しであり、真のパーソナルアシスタントを携帯電話に組み込み、個人のニーズに合わせて最適に機能するように AI モデルをカスタマイズできるようになります。

これらの LLM AI の将来のアプリケーションの中で最も優れた、そして可能性が高いものの 1 つは、80 年以上前のスタートレック以来、私たち全員が夢見てきたものです。世界共通言語の翻訳者。 ChatGPT はすでに翻訳者として機能しますが、翻訳を生成するにはかなり長い処理時間がかかります。今はあります元の俳優の声をそのままにしながら、声の演技を別の言語に翻訳できる AI モデル. 私はアニメだけでなく、日本や韓国のドラマも大好きです。テレビのボタンを押すと、オリジナルの俳優の声が聞こえますが、英語で聞こえるだけです。リアルタイム。これらの巨大企業が AI の進歩で互いに勝とうと競争するにつれ、この現実はますます近づいています。