Google Gemini søger at sætte ChatGPT i bakspejlet
Hvad du behøver at vide
- AI-løbet varmes op, da Google har frigivet en ny AI-model (tænk GPT-4 vs GPT-3) til at drive deres AI-økosystem.
- Googles benchmarks viser, at Gemini klarer sig bedre end GPT-4V i flere præstationsmålinger.
- Gemini kommer i 3 formater: Ultra, Pro og Nano.
- Pixel 8 Pro bliver den første Pixel til at implementere Gemini gennem Gemini Nano.
- Gemini Pro vil være tilgængelig via Gemini API i Google AI Studio den december. 13.
Med den seneste omvæltning ved OpenAI med fyringen og derefter genansættelse af Sam Altman, Google må have lugtet blod i vandet, for blot et par uger senere annoncerede Google en ny AI-model, der ser ud til at være kraftigere end GPT-4V.
Google annoncerede Google Gemini da fremtiden for AI for Google og fra i dag vil drive Bard, og snart vil det komme til alle Googles AI-produkter. Med 3 forskellige størrelser af modellen: Ultra, Pro og Nano, er Gemini 1.0 bygget til at være allestedsnærværende ligesom resten af Google.
Hvad er Google Gemini?
Google kalder Gemini "den mest dygtige og generelle model, vi nogensinde har bygget." Det er backend-modellen som vil drive Googles stak af AI-produkter, selvom beslutningen om at frigive modellen med tre størrelser.
- Gemini Ultra — Googles største og mest dygtige model til meget komplekse opgaver.
- Gemini Pro — Googles bedste model til skalering på tværs af en lang række opgaver.
- Gemini Nano — Googles mest effektive model til opgaver på enheden.
Nogle af de præstationstal, der bliver udråbt af Google til Gemini, er ret imponerende, men hvis jeg har lært én ting inden for teknologi, så stol ikke på producentens benchmarks. Når det er sagt, er det svært at stille spørgsmålstegn ved Geminis effektivitet, når man ser det fungere live. @rowancheung på X(Twitter) har lagt en video op viser Gemini i aktion, og resultaterne er intet mindre end bemærkelsesværdige.
🚨 BREAKING: Google DeepMind har netop afsløret Gemini-ChatGPTs største konkurrent. Gemini er den FØRSTE multimodale AI, der klarer sig bedre end menneskelige eksperter på MMLU og scorer over 90 %. pic.twitter.com/A7It1hPKGQ6. december 2023
Se mere
Hvordan klarer Google Gemini sig?
Google udråber Gemini som den bedste AI-model på planeten gennem de benchmarks, som den udsendte. Hvis disse benchmarks holder op til 3. parts test, vil Gemini være den bedste hund på markedet, i det mindste indtil OpenAI frigiver ChatGPT-5. Den store regel med økonomien, som den er struktureret i øjeblikket, er, at når virksomheder konkurrerer om at have det bedste produkt, vinder forbrugerne normalt.
Gemini burde presse OpenAI til at fortsætte med at skubbe innovation, men åbenbart har der været mange bekymringer om hensynsløs forskning uden ordentlige hensyn til sikkerhed, selv fra Administrerende direktører som Satya Nadella, der sammenligner AI med atomenergi.
Google Gemini klarede sig bedre end ChatGPT-4V i de fleste af de benchmarks, der blev vist af Google. Nogle gange med over 4 % point. Benchmark med det mest interessante navn ud af bunken, HellaSwag, var det, som Gemini underpræsterede sammenlignet med ChatGPT-4V. Tag et kig på den fulde liste over benchmarks.
Evne | Benchmark | Beskrivelse | Gemini Ultra | GPT-4V |
---|---|---|---|---|
Generel | MMLU | Repræsentation af spørgsmål i 57 emner (inkl. STEM, humaniora og andre) | 90,0 % CoT@32* | 86,4 % 5-skud* (rapporteret) |
Ræsonnement | Big-Bench Hard | Forskellige sæt af udfordrende opgaver, der kræver ræsonnement i flere trin | 83,6 % 3-skud | 83,1 % 3-shot (API), |
Række 2 - Celle 0 | DRÅBE | Læseforståelse (F1 Score) | 82.4 Variable skud | 80,9 3-skud (rapporteret) |
Række 3 - Celle 0 | HellaSwag | Fornuft ræsonnement for hverdagens opgaver | 87,8 % 10-skud* | 95,3 % 10-skud* (rapporteret) |
Matematik | GSM8K | Grundlæggende aritmetiske manipulationer (inkl. Skolens matematiske problemer) | 94,4% maj1@32 | 92,0 % 5-shot CoT (rapporteret) |
Række 5 - Celle 0 | MATH | Udfordrende matematikopgaver (inkl. algebra, geometri, pre-calculus og andre) | 53,2 % 4-skud | 52,9 % 4-skud (API) |
Kode | HumanEval | Python-kodegenerering | 74,4 % 0-skud (IT)* | 67,0 % 0-skud* (rapporteret) |
Række 7 - Celle 0 | Natural2Code | Python-kodegenerering. Nyt holdt datasæt HumanEval-lignende, ikke lækket på nettet | 74,9 % 0-skud | 73,9 % 0-shot (API) |
Række 8 - Celle 0 | Række 8 - Celle 1 | Række 8 - Celle 2 | Række 8 - Celle 3 | Række 8 - Celle 4 |
Selvom disse resultater er imponerende, betyder de sandsynligvis ikke et væld for den gennemsnitlige forbruger. Google skubber Gemini Nano på Pixel 8 Pro er mere spændende for mig, da det er en model til opgaver på enheden. Mange producenter er begyndt at tilføje AI-funktioner på enheden, som NVIDIAs TensorRT-LLM til de enheder, de laver. For mig er dette en mere spændende udsigt til fremtiden for AI, hvor vi kan have ægte personlige assistenter indbygget i vores telefoner og tilpasse vores AI-model, så den fungerer bedst til vores individuelle behov.
En af de bedste, og sandsynligvis mulige, fremtidige applikationer til disse LLM AI'er er noget, vi alle har drømt om siden Star Trek for mere end 80 år siden. En universel sprogoversætter. ChatGPT kan allerede fungere som oversætter, men der er ret lang behandlingstid til at generere oversættelserne. Der er nu AI-modeller, der kan oversætte stemmeskuespil til et andet sprog, og holde den originale skuespillers stemme intakt. Jeg er en stor fan af anime, såvel som japanske og koreanske dramaer, jeg ville elske en verden, hvor jeg kan tryk på en knap på mit tv og få høre de originale skuespilleres stemme, men bare hør den på engelsk på realtid. Efterhånden som disse mega-virksomheder konkurrerer om at overgå hinanden i AI-fremme, nærmer denne virkelighed sig tættere og tættere på.