Google Gemini prøver å sette ChatGPT i bakspeilet

December 07, 2023
IVinduer Sentralt

Hva du trenger å vite

AI-løpet varmes opp ettersom Google har lansert en ny AI-modell (tenk GPT-4 vs GPT-3) for å drive AI-økosystemet deres.
Googles benchmarks viser at Gemini overgår GPT-4V i flere ytelsesmålinger.
Gemini kommer i 3 formater: Ultra, Pro og Nano.
Pixel 8 Pro vil være den første Pixel som implementerer Gemini gjennom Gemini Nano.
Gemini Pro vil være tilgjengelig gjennom Gemini API i Google AI Studio i desember. 13.

Med den siste omveltning ved OpenAI med sparkingen, og deretter gjenansetting av Sam Altman, Google må ha luktet blod i vannet fordi bare noen uker senere annonserte Google en ny AI-modell som ser ut til å være kraftigere enn GPT-4V.

Google annonserte Google Gemini ettersom fremtiden til AI for Google og fra og med i dag vil drive Bard, og snart kommer den til alle Googles AI-produkter. Med 3 forskjellige størrelser av modellen: Ultra, Pro og Nano, er Gemini 1.0 bygget for å være allestedsnærværende akkurat som resten av Google.

Hva er Google Gemini?

Google kaller Gemini "den mest dyktige og generelle modellen vi noen gang har bygget." Det er backend-modellen som vil drive Googles stabel med AI-produkter, selv om beslutningen om å gi ut modellen med tre størrelser.

Gemini Ultra — Googles største og mest dyktige modell for svært komplekse oppgaver.
Gemini Pro — Googles beste modell for skalering på tvers av et bredt spekter av oppgaver.
Gemini Nano — Googles mest effektive modell for oppgaver på enheten.

Noen av ytelsestallene som Google antyder for Gemini er ganske imponerende, men hvis jeg har lært en ting innen teknologi, ikke stol på produsentens benchmarks. Når det er sagt, er det vanskelig å stille spørsmål ved Geminis effektivitet når man ser den fungere live. @rowancheung på X(Twitter) har lagt ut en video viser Gemini i aksjon og resultatene er intet mindre enn bemerkelsesverdige.

🚨 BREAKING: Google DeepMind avslørte nettopp Gemini-ChatGPTs største konkurrent. Gemini er den FØRSTE multimodale AI-en som overgår menneskelige eksperter på MMLU, og scoret over 90 %. pic.twitter.com/A7It1hPKGQ6. desember 2023

Se mer

Hvordan fungerer Google Gemini?

Google utpeker Gemini som den beste AI-modellen på planeten gjennom referansene den la ut. Hvis disse benchmarkene holder opp til tredjepartstesting, vil Gemini være den beste hunden på markedet, i det minste inntil OpenAI slipper ut ChatGPT-5. Den store regelen med økonomien slik den er strukturert i dag, er at når selskaper konkurrerer om å ha det beste produktet, vinner vanligvis forbrukerne.

Tvillingene burde presse OpenAI til å fortsette å drive innovasjon, men åpenbart har det vært mange bekymringer rundt hensynsløs forskning uten riktige hensyn til sikkerhet, selv fra Administrerende direktører som Satya Nadella sammenligner AI med atomenergi.

Gemini Ultra er den første modellen som overgår menneskelige eksperter på MMLU (massiv multitask språkforståelse), som bruker en kombinasjon av 57 fag som matematikk, fysikk, historie, juss, medisin og etikk for å teste både verdenskunnskap og problemløsning ferdigheter.

Google

Google Gemini overgikk ChatGPT-4V i de fleste referansene som ble vist av Google. Noen ganger med over 4 % poeng. Benchmarken med det mest interessante navnet av gjengen, HellaSwag, var den som Gemini underpresterte sammenlignet med ChatGPT-4V. Ta en titt på hele listen over benchmarks.

Sveip for å rulle horisontalt

Evne	Benchmark	Beskrivelse	Gemini Ultra	GPT-4V
Generell	MMLU	Representasjon av spørsmål i 57 fag (inkl. STEM, humaniora og andre)	90,0 % CoT@32*	86,4 % 5-skudd* (rapportert)
Argumentasjon	Big-Benk Hard	Variert sett med utfordrende oppgaver som krever flertrinns resonnement	83,6 % 3-skudd	83,1 % 3-shot (API),
Rad 2 - Celle 0	MISTE	Leseforståelse (F1-poeng)	82.4 Variable skudd	80,9 3-skudd (rapportert)
Rad 3 - Celle 0	HellaSwag	Sunn fornuft resonnement for hverdagslige gjøremål	87,8 % 10-skudd*	95,3 % 10-skudd* (rapportert)
Matte	GSM8K	Grunnleggende aritmetiske manipulasjoner (inkl. Skolens matematikkproblemer)	94,4 % mai1@32	92,0 % 5-shot CoT (rapportert)
Rad 5 - Celle 0	MATTE	Utfordrende matematikkoppgaver (inkl. algebra, geometri, pre-calculus og andre)	53,2 % 4-skudd	52,9 % 4-skudd (API)
Kode	HumanEval	Python-kodegenerering	74,4 % 0-skudd (IT)*	67,0 % 0-skudd* (rapportert)
Rad 7 - Celle 0	Natural2Code	Python-kodegenerering. Nytt holdt ut datasett HumanEval-lignende, ikke lekket på nettet	74,9 % 0-skudd	73,9 % 0-shot (API)
Rad 8 - Celle 0	Rad 8 - Celle 1	Rad 8 - Celle 2	Rad 8 - Celle 3	Rad 8 - Celle 4

Selv om disse resultatene er imponerende, betyr de sannsynligvis ikke mye for den gjennomsnittlige forbrukeren. Google skyver Gemini Nano på Pixel 8 Pro er mer spennende for meg, siden det er en modell for oppgaver på enheten. Mange produsenter begynner å gjøre det legg til AI-funksjoner på enheten, som NVIDIAs TensorRT-LLM til enhetene de lager. For meg er dette et mer spennende perspektiv for fremtiden til AI, der vi kan ha ekte personlige assistenter innebygd i telefonene våre og tilpasse AI-modellen vår slik at den fungerer best for våre individuelle behov.

En av de beste, og sannsynligvis mulige, fremtidige applikasjonene for disse LLM AI-ene er noe vi alle har drømt om siden Star Trek for 80 pluss år siden. En universell språkoversetter. ChatGPT kan allerede fungere som oversetter, men det er ganske lang behandlingstid for å generere oversettelsene. Det er nå AI-modeller som kan oversette stemmeskuespill til et annet språk, og holde den originale skuespillerens stemme intakt. Jeg er en stor fan av anime, så vel som japanske og koreanske dramaer, jeg vil elske en verden der jeg kan trykk på en knapp på TV-en min og få høre de originale skuespillernes stemme, men bare hør den på engelsk sanntid. Ettersom disse megaselskapene konkurrerer om å overgå hverandre i AI-utvikling, nærmer denne virkeligheten seg nærmere og nærmere.