Google Gemini はバックミラーに ChatGPT を搭載しようとしている
知っておくべきこと
- Google が AI エコシステムを強化する新しい AI モデル (GPT-4 と GPT-3 を思い浮かべてください) をリリースしたため、AI 競争は激化しています。
- Google のベンチマークでは、Gemini がいくつかのパフォーマンス指標で GPT-4V を上回っていることが示されています。
- Gemini には、Ultra、Pro、Nano の 3 つのフォーマットがあります。
- Pixel 8 Pro は、Gemini Nano を通じて Gemini を実装する最初の Pixel になります。
- Gemini Pro は、12 月 1 日に Google AI Studio の Gemini API を通じて利用可能になります。 13日。
最近の サム・アルトマン氏の解雇と再雇用によるOpenAI社の混乱, わずか数週間後、Google は GPT-4V より強力と思われる新しい AI モデルを発表したため、Google は水中の血の匂いを嗅いだに違いありません。
グーグル Google Geminiを発表 Google にとって AI の未来として、今日から Bard が強化され、間もなく Google のすべての AI 製品に導入されることになります。 Ultra、Pro、Nano の 3 つの異なるサイズのモデルを備えた Gemini 1.0 は、Google の他の製品と同様にユビキタスになるように構築されています。
Google Gemini とは何ですか?
GoogleはGeminiを「これまで構築した中で最も有能で汎用的なモデル」と呼んでいる。 バックエンドモデルです これは Google の AI 製品群を強化することになるが、3 つのモデルをリリースするという決定は サイズ。
- ジェミニウルトラ — 非常に複雑なタスクに対応する、Google の最大かつ最も機能的なモデル。
- ジェミニプロ — 幅広いタスクにわたって拡張するための Google の最適なモデル。
- ジェミニナノ — Google のオンデバイス タスク向けの最も効率的なモデル。
Google が宣伝している Gemini のパフォーマンス数値の一部は非常に印象的ですが、テクノロジーに関して私が学んだことがあるとすると、メーカーのベンチマークを信用してはいけないということです。 そうは言っても、Gemini が実際に機能しているのを見ると、その有効性を疑問視するのは困難です。 @rowancheung on X(Twitter)
🚨 速報: Google DeepMind は、ChatGPT の最大の競合相手である Gemini を明らかにしました。 Gemini は、MMLU において人間の専門家を上回るパフォーマンスを示し、90% 以上のスコアを獲得した最初のマルチモーダル AI です。 pic.twitter.com/A7It1hPKGQ2023 年 12 月 6 日
続きを見る
Google Gemini はどのように機能しますか?
Googleは、掲載したベンチマークを通じてGeminiを地球上で最高のAIモデルとして宣伝している。 これらのベンチマークがサードパーティのテストに耐えられる場合、少なくとも OpenAI がリリースされるまでは、Gemini が市場のトップとなるでしょう。 チャットGPT-5. 現在構造化されている経済の大原則は、企業が最高の製品を手に入れるために競争すると、通常は消費者が勝つということです。
ジェミニはイノベーションを推進し続けるためにOpenAIを推進する必要がありますが、明らかに、安全性への適切な考慮を欠いた無謀な研究については、 サティア・ナデラのようなCEOはAIを原子力と比較する.
Google Gemini は、Google が示したほとんどのベンチマークで ChatGPT-4V を上回りました。 場合によっては4%以上のポイントがつきます。 ベンチマークの中で最も興味深い名前の HellaSwag は、Gemini のパフォーマンスが ChatGPT-4V に比べて劣っていました。 ベンチマークの完全なリストをご覧ください。
能力 | 基準 | 説明 | ジェミニウルトラ | GPT-4V |
---|---|---|---|---|
一般的な | MMLU | 57 科目の質問を表現 (含む) STEM、人文科学、その他) | 90.0% CoT@32* | 86.4% 5 ショット* (報告済み) |
推論 | ビッグベンチハード | 多段階の推論を必要とする多様な挑戦的なタスクのセット | 83.6% 3ショット | 83.1% 3 ショット (API)、 |
行 2 - セル 0 | 落とす | 読解力(F1スコア) | 82.4 バリアブルショット | 80.9 スリーショット (報告済み) |
行 3 - セル 0 | ヘラスワッグ | 日常業務における常識的な推論 | 87.8% 10 ショット* | 95.3% 10 ショット* (報告済み) |
数学 | GSM8K | 基本的な算術操作 (含む) 小学校の算数の問題) | 94.4% maj1@32 | 92.0% 5 ショット CoT (報告済み) |
行 5 - セル 0 | 数学 | 難しい数学の問題 ( 代数、幾何学、微積分以前など) | 53.2% 4ショット | 52.9% 4 ショット (API) |
コード | HumanEval | Pythonコード生成 | 74.4% ゼロショット (IT)* | 67.0% ゼロショット* (報告済み) |
行 7 - セル 0 | Natural2Code | Python コードの生成。 HumanEval に似た新しい保持データセット、Web 上には漏洩していない | 74.9% ゼロショット | 73.9% ゼロショット (API) |
行 8 - セル 0 | 行 8 - セル 1 | 行 8 - セル 2 | 行 8 - セル 3 | 行 8 - セル 4 |
これらのスコアは印象的ですが、平均的な消費者にとってはおそらくあまり意味がありません。 Google が Gemini Nano を Pixel 8 Pro に搭載することは、オンデバイス タスクのモデルであるため、私にとってはさらにエキサイティングです。 多くのメーカーが取り組み始めています NVIDIA の TensorRT-LLM などのオンデバイス AI 機能を追加します 彼らが作るデバイスに。 私にとって、これは AI の将来にとってよりエキサイティングな見通しであり、真のパーソナル アシスタントを携帯電話に組み込み、個人のニーズに合わせて最適に機能するように AI モデルをカスタマイズできるようになります。
これらの LLM AI の将来のアプリケーションの中で最も優れた、そして可能性が高いものの 1 つは、80 年以上前のスタートレック以来、私たち全員が夢見てきたものです。 世界共通言語の翻訳者。 ChatGPT はすでに翻訳者として機能しますが、翻訳を生成するにはかなり長い処理時間がかかります。 今はあります 元の俳優の声をそのままにしながら、声の演技を別の言語に翻訳できる AI モデル. 私はアニメだけでなく、日本や韓国のドラマも大好きです。 テレビのボタンを押すと、オリジナルの俳優の声が聞こえますが、英語で聞こえるだけです。 リアルタイム。 これらの巨大企業が AI の進歩で互いに勝とうと競争するにつれ、この現実はますます近づいています。