Google Gemini søger at sætte ChatGPT i bakspejlet

December 07, 2023
IVinduer Centralt

Hvad du behøver at vide

AI-løbet varmes op, da Google har frigivet en ny AI-model (tænk GPT-4 vs GPT-3) til at drive deres AI-økosystem.
Googles benchmarks viser, at Gemini klarer sig bedre end GPT-4V i flere præstationsmålinger.
Gemini kommer i 3 formater: Ultra, Pro og Nano.
Pixel 8 Pro bliver den første Pixel til at implementere Gemini gennem Gemini Nano.
Gemini Pro vil være tilgængelig via Gemini API i Google AI Studio den december. 13.

Med den seneste omvæltning ved OpenAI med fyringen og derefter genansættelse af Sam Altman, Google må have lugtet blod i vandet, for blot et par uger senere annoncerede Google en ny AI-model, der ser ud til at være kraftigere end GPT-4V.

Google annoncerede Google Gemini da fremtiden for AI for Google og fra i dag vil drive Bard, og snart vil det komme til alle Googles AI-produkter. Med 3 forskellige størrelser af modellen: Ultra, Pro og Nano, er Gemini 1.0 bygget til at være allestedsnærværende ligesom resten af Google.

Hvad er Google Gemini?

Google kalder Gemini "den mest dygtige og generelle model, vi nogensinde har bygget." Det er backend-modellen som vil drive Googles stak af AI-produkter, selvom beslutningen om at frigive modellen med tre størrelser.

Gemini Ultra — Googles største og mest dygtige model til meget komplekse opgaver.
Gemini Pro — Googles bedste model til skalering på tværs af en lang række opgaver.
Gemini Nano — Googles mest effektive model til opgaver på enheden.

Nogle af de præstationstal, der bliver udråbt af Google til Gemini, er ret imponerende, men hvis jeg har lært én ting inden for teknologi, så stol ikke på producentens benchmarks. Når det er sagt, er det svært at stille spørgsmålstegn ved Geminis effektivitet, når man ser det fungere live. @rowancheung på X(Twitter) har lagt en video op viser Gemini i aktion, og resultaterne er intet mindre end bemærkelsesværdige.

🚨 BREAKING: Google DeepMind har netop afsløret Gemini-ChatGPTs største konkurrent. Gemini er den FØRSTE multimodale AI, der klarer sig bedre end menneskelige eksperter på MMLU og scorer over 90 %. pic.twitter.com/A7It1hPKGQ6. december 2023

Se mere

Hvordan klarer Google Gemini sig?

Google udråber Gemini som den bedste AI-model på planeten gennem de benchmarks, som den udsendte. Hvis disse benchmarks holder op til 3. parts test, vil Gemini være den bedste hund på markedet, i det mindste indtil OpenAI frigiver ChatGPT-5. Den store regel med økonomien, som den er struktureret i øjeblikket, er, at når virksomheder konkurrerer om at have det bedste produkt, vinder forbrugerne normalt.

Gemini burde presse OpenAI til at fortsætte med at skubbe innovation, men åbenbart har der været mange bekymringer om hensynsløs forskning uden ordentlige hensyn til sikkerhed, selv fra Administrerende direktører som Satya Nadella, der sammenligner AI med atomenergi.

Gemini Ultra er den første model, der overgår menneskelige eksperter på MMLU (massiv multitask sprogforståelse), som bruger en kombination af 57 fag som matematik, fysik, historie, jura, medicin og etik til test af både verdensviden og problemløsning evner.

Google

Google Gemini klarede sig bedre end ChatGPT-4V i de fleste af de benchmarks, der blev vist af Google. Nogle gange med over 4 % point. Benchmark med det mest interessante navn ud af bunken, HellaSwag, var det, som Gemini underpræsterede sammenlignet med ChatGPT-4V. Tag et kig på den fulde liste over benchmarks.

Stryg for at rulle vandret

Evne	Benchmark	Beskrivelse	Gemini Ultra	GPT-4V
Generel	MMLU	Repræsentation af spørgsmål i 57 emner (inkl. STEM, humaniora og andre)	90,0 % CoT@32*	86,4 % 5-skud* (rapporteret)
Ræsonnement	Big-Bench Hard	Forskellige sæt af udfordrende opgaver, der kræver ræsonnement i flere trin	83,6 % 3-skud	83,1 % 3-shot (API),
Række 2 - Celle 0	DRÅBE	Læseforståelse (F1 Score)	82.4 Variable skud	80,9 3-skud (rapporteret)
Række 3 - Celle 0	HellaSwag	Fornuft ræsonnement for hverdagens opgaver	87,8 % 10-skud*	95,3 % 10-skud* (rapporteret)
Matematik	GSM8K	Grundlæggende aritmetiske manipulationer (inkl. Skolens matematiske problemer)	94,4% maj1@32	92,0 % 5-shot CoT (rapporteret)
Række 5 - Celle 0	MATH	Udfordrende matematikopgaver (inkl. algebra, geometri, pre-calculus og andre)	53,2 % 4-skud	52,9 % 4-skud (API)
Kode	HumanEval	Python-kodegenerering	74,4 % 0-skud (IT)*	67,0 % 0-skud* (rapporteret)
Række 7 - Celle 0	Natural2Code	Python-kodegenerering. Nyt holdt datasæt HumanEval-lignende, ikke lækket på nettet	74,9 % 0-skud	73,9 % 0-shot (API)
Række 8 - Celle 0	Række 8 - Celle 1	Række 8 - Celle 2	Række 8 - Celle 3	Række 8 - Celle 4

Selvom disse resultater er imponerende, betyder de sandsynligvis ikke et væld for den gennemsnitlige forbruger. Google skubber Gemini Nano på Pixel 8 Pro er mere spændende for mig, da det er en model til opgaver på enheden. Mange producenter er begyndt at tilføje AI-funktioner på enheden, som NVIDIAs TensorRT-LLM til de enheder, de laver. For mig er dette en mere spændende udsigt til fremtiden for AI, hvor vi kan have ægte personlige assistenter indbygget i vores telefoner og tilpasse vores AI-model, så den fungerer bedst til vores individuelle behov.

En af de bedste, og sandsynligvis mulige, fremtidige applikationer til disse LLM AI'er er noget, vi alle har drømt om siden Star Trek for mere end 80 år siden. En universel sprogoversætter. ChatGPT kan allerede fungere som oversætter, men der er ret lang behandlingstid til at generere oversættelserne. Der er nu AI-modeller, der kan oversætte stemmeskuespil til et andet sprog, og holde den originale skuespillers stemme intakt. Jeg er en stor fan af anime, såvel som japanske og koreanske dramaer, jeg ville elske en verden, hvor jeg kan tryk på en knap på mit tv og få høre de originale skuespilleres stemme, men bare hør den på engelsk på realtid. Efterhånden som disse mega-virksomheder konkurrerer om at overgå hinanden i AI-fremme, nærmer denne virkelighed sig tættere og tættere på.