Google Gemini cherche à mettre ChatGPT dans le rétroviseur

December 07, 2023
DansFenêtres Centrales

Que souhaitez-vous savoir

La course à l'IA s'intensifie alors que Google a publié un nouveau modèle d'IA (pensez GPT-4 vs GPT-3) pour alimenter son écosystème d'IA.
Les benchmarks de Google montrent que Gemini surpasse GPT-4V dans plusieurs mesures de performances.
Gemini sera disponible en 3 formats: Ultra, Pro et Nano.
Le Pixel 8 Pro sera le premier Pixel à implémenter Gemini via Gemini Nano.
Gemini Pro sera disponible via l'API Gemini dans Google AI Studio le 1er décembre. 13ème.

Avec le récent bouleversement chez OpenAI avec le licenciement puis la réembauche de Sam Altman, Google a dû sentir du sang dans l'eau car quelques semaines plus tard, Google a annoncé un nouveau modèle d'IA qui semble être plus puissant que le GPT-4V.

Google a annoncé Google Gemini car l'avenir de l'IA pour Google alimentera Bard à partir d'aujourd'hui, et bientôt tous les produits d'IA de Google. Avec 3 tailles différentes de modèle: Ultra, Pro et Nano, Gemini 1.0 est conçu pour être omniprésent, tout comme le reste de Google.

Qu’est-ce que Google Gemini ?

Google qualifie Gemini de "modèle le plus performant et le plus général que nous ayons jamais construit". C'est le modèle backend qui alimentera la pile de produits d'IA de Google, bien que la décision de lancer le modèle avec trois tailles.

Gémeaux Ultra — Le modèle le plus grand et le plus performant de Google pour les tâches très complexes.
Gémeaux Pro – Le meilleur modèle de Google pour évoluer sur un large éventail de tâches.
Gémeaux Nano — Le modèle le plus efficace de Google pour les tâches sur l'appareil.

Certains des chiffres de performances vantés par Google pour Gemini sont assez impressionnants, mais si j'ai appris une chose en technologie, ne faites pas confiance aux références des fabricants. Ceci étant dit, il est difficile de remettre en question l’efficacité de Gemini lorsqu’on le voit fonctionner en live. @rowancheung sur X(Twitter) a posté une vidéo montrant les Gémeaux en action et les résultats sont tout simplement remarquables.

🚨 RUPTURE: Google DeepMind vient de révéler le plus gros concurrent de Gemini-ChatGPT. Gemini est la PREMIÈRE IA multimodale à surpasser les experts humains sur le MMLU, avec un score de plus de 90 %. pic.twitter.com/A7It1hPKGQ6 décembre 2023

Comment fonctionne Google Gemini ?

Google présente Gemini comme le meilleur modèle d'IA de la planète grâce aux références publiées. Si ces références résistent aux tests tiers, Gemini sera le meilleur du marché, au moins jusqu'à la sortie d'OpenAI. ChatGPT-5. La grande règle de l’économie telle qu’elle est structurée actuellement est que lorsque les entreprises rivalisent pour avoir le meilleur produit, les consommateurs gagnent généralement.

Gemini devrait pousser OpenAI à continuer de promouvoir l'innovation, mais de toute évidence, de nombreuses inquiétudes ont été soulevées concernant des recherches imprudentes sans considérations appropriées en matière de sécurité, même de la part de Gemini. Des PDG comme Satya Nadella comparent l’IA à l’énergie atomique.

Gemini Ultra est le premier modèle à surpasser les experts humains en matière de MMLU (compréhension massive du langage multitâche), qui utilise un combinaison de 57 matières telles que les mathématiques, la physique, l'histoire, le droit, la médecine et l'éthique pour tester à la fois la connaissance du monde et la résolution de problèmes capacités.

Google

Google Gemini a surpassé ChatGPT-4V dans la plupart des benchmarks présentés par Google. Parfois de plus de 4 points de pourcentage. La référence avec le nom le plus intéressant du groupe, HellaSwag, était celle pour laquelle Gemini a sous-performé par rapport à ChatGPT-4V. Jetez un œil à la liste complète des références.

Faites glisser pour faire défiler horizontalement

Aptitude	Référence	Description	Gémeaux Ultra	GPT-4V
Général	MMLU	Représentation des questions dans 57 matières (incl. STEM, sciences humaines et autres)	90,0 % CoT@32*	86,4 % 5 coups* (rapporté)
Raisonnement	Big-Banc Dur	Ensemble diversifié de tâches difficiles nécessitant un raisonnement en plusieurs étapes	83,6% 3 coups	83,1% 3 coups (API),
Ligne 2 - Cellule 0	BAISSE	Compréhension écrite (score F1)	82.4 Plans variables	80,9 3 coups (rapporté)
Ligne 3 - Cellule 0	HellaSwag	Raisonnement de bon sens pour les tâches quotidiennes	87,8 % 10 coups*	95,3 % 10 coups* (rapporté)
Mathématiques	GSM8K	Manipulations arithmétiques de base (incl. Problèmes de mathématiques à l'école primaire)	94,4 % maj1@32	92,0 % de CoT à 5 coups (rapporté)
Ligne 5 - Cellule 0	MATHÉMATIQUES	Problèmes mathématiques difficiles (incl. algèbre, géométrie, pré-calcul et autres)	53,2% 4 coups	52,9 % 4 coups (API)
Code	HumanEval	Génération de code Python	74,4 % 0 coup (IT)*	67,0% 0-shot* (rapporté)
Ligne 7 - Cellule 0	Naturel2Code	Génération de code Python. Nouvel ensemble de données de type HumanEval, non divulgué sur le Web	74,9% 0 tir	73,9 % 0 tir (API)
Ligne 8 - Cellule 0	Ligne 8 - Cellule 1	Rangée 8 - Cellule 2	Rangée 8 - Cellule 3	Ligne 8 - Cellule 4

Bien que ces scores soient impressionnants, ils ne signifient probablement pas grand-chose pour le consommateur moyen. Google poussant Gemini Nano sur Pixel 8 Pro est plus excitant pour moi car il s'agit d'un modèle pour les tâches sur l'appareil. De nombreux fabricants commencent à ajoutez des fonctionnalités d'IA sur l'appareil, comme TensorRT-LLM de NVIDIA aux appareils qu’ils fabriquent. Pour moi, il s’agit d’une perspective plus excitante pour l’avenir de l’IA, où nous pouvons intégrer de véritables assistants personnels dans nos téléphones et personnaliser notre modèle d’IA pour qu’il réponde au mieux à nos besoins individuels.

L’une des meilleures applications futures, et probablement possibles, pour ces IA LLM est quelque chose dont nous rêvons tous depuis Star Trek il y a plus de 80 ans. Un traducteur de langue universel. ChatGPT peut déjà faire office de traducteur, mais le temps de traitement est assez long pour générer les traductions. Il y a maintenant Des modèles d'IA capables de traduire le doublage dans une autre langue, en gardant intacte la voix de l'acteur d'origine.. Je suis un grand fan d'anime, ainsi que de drames japonais et coréens, j'adorerais un monde où je pourrais appuyez sur un bouton de mon téléviseur et entendez la voix des acteurs originaux, mais entendez-la simplement en anglais dans temps réel. Alors que ces méga-entreprises rivalisent pour se surpasser dans le progrès de l’IA, cette réalité se rapproche de plus en plus.