Google Gemini prøver å sette ChatGPT i bakspeilet
Hva du trenger å vite
- AI-løpet varmes opp ettersom Google har lansert en ny AI-modell (tenk GPT-4 vs GPT-3) for å drive AI-økosystemet deres.
- Googles benchmarks viser at Gemini overgår GPT-4V i flere ytelsesmålinger.
- Gemini kommer i 3 formater: Ultra, Pro og Nano.
- Pixel 8 Pro vil være den første Pixel som implementerer Gemini gjennom Gemini Nano.
- Gemini Pro vil være tilgjengelig gjennom Gemini API i Google AI Studio i desember. 13.
Med den siste omveltning ved OpenAI med sparkingen, og deretter gjenansetting av Sam Altman, Google må ha luktet blod i vannet fordi bare noen uker senere annonserte Google en ny AI-modell som ser ut til å være kraftigere enn GPT-4V.
Google annonserte Google Gemini ettersom fremtiden til AI for Google og fra og med i dag vil drive Bard, og snart kommer den til alle Googles AI-produkter. Med 3 forskjellige størrelser av modellen: Ultra, Pro og Nano, er Gemini 1.0 bygget for å være allestedsnærværende akkurat som resten av Google.
Hva er Google Gemini?
Google kaller Gemini "den mest dyktige og generelle modellen vi noen gang har bygget." Det er backend-modellen som vil drive Googles stabel med AI-produkter, selv om beslutningen om å gi ut modellen med tre størrelser.
- Gemini Ultra — Googles største og mest dyktige modell for svært komplekse oppgaver.
- Gemini Pro — Googles beste modell for skalering på tvers av et bredt spekter av oppgaver.
- Gemini Nano — Googles mest effektive modell for oppgaver på enheten.
Noen av ytelsestallene som Google antyder for Gemini er ganske imponerende, men hvis jeg har lært en ting innen teknologi, ikke stol på produsentens benchmarks. Når det er sagt, er det vanskelig å stille spørsmål ved Geminis effektivitet når man ser den fungere live. @rowancheung på X(Twitter) har lagt ut en video viser Gemini i aksjon og resultatene er intet mindre enn bemerkelsesverdige.
🚨 BREAKING: Google DeepMind avslørte nettopp Gemini-ChatGPTs største konkurrent. Gemini er den FØRSTE multimodale AI-en som overgår menneskelige eksperter på MMLU, og scoret over 90 %. pic.twitter.com/A7It1hPKGQ6. desember 2023
Se mer
Hvordan fungerer Google Gemini?
Google utpeker Gemini som den beste AI-modellen på planeten gjennom referansene den la ut. Hvis disse benchmarkene holder opp til tredjepartstesting, vil Gemini være den beste hunden på markedet, i det minste inntil OpenAI slipper ut ChatGPT-5. Den store regelen med økonomien slik den er strukturert i dag, er at når selskaper konkurrerer om å ha det beste produktet, vinner vanligvis forbrukerne.
Tvillingene burde presse OpenAI til å fortsette å drive innovasjon, men åpenbart har det vært mange bekymringer rundt hensynsløs forskning uten riktige hensyn til sikkerhet, selv fra Administrerende direktører som Satya Nadella sammenligner AI med atomenergi.
Google Gemini overgikk ChatGPT-4V i de fleste referansene som ble vist av Google. Noen ganger med over 4 % poeng. Benchmarken med det mest interessante navnet av gjengen, HellaSwag, var den som Gemini underpresterte sammenlignet med ChatGPT-4V. Ta en titt på hele listen over benchmarks.
Evne | Benchmark | Beskrivelse | Gemini Ultra | GPT-4V |
---|---|---|---|---|
Generell | MMLU | Representasjon av spørsmål i 57 fag (inkl. STEM, humaniora og andre) | 90,0 % CoT@32* | 86,4 % 5-skudd* (rapportert) |
Argumentasjon | Big-Benk Hard | Variert sett med utfordrende oppgaver som krever flertrinns resonnement | 83,6 % 3-skudd | 83,1 % 3-shot (API), |
Rad 2 - Celle 0 | MISTE | Leseforståelse (F1-poeng) | 82.4 Variable skudd | 80,9 3-skudd (rapportert) |
Rad 3 - Celle 0 | HellaSwag | Sunn fornuft resonnement for hverdagslige gjøremål | 87,8 % 10-skudd* | 95,3 % 10-skudd* (rapportert) |
Matte | GSM8K | Grunnleggende aritmetiske manipulasjoner (inkl. Skolens matematikkproblemer) | 94,4 % mai1@32 | 92,0 % 5-shot CoT (rapportert) |
Rad 5 - Celle 0 | MATTE | Utfordrende matematikkoppgaver (inkl. algebra, geometri, pre-calculus og andre) | 53,2 % 4-skudd | 52,9 % 4-skudd (API) |
Kode | HumanEval | Python-kodegenerering | 74,4 % 0-skudd (IT)* | 67,0 % 0-skudd* (rapportert) |
Rad 7 - Celle 0 | Natural2Code | Python-kodegenerering. Nytt holdt ut datasett HumanEval-lignende, ikke lekket på nettet | 74,9 % 0-skudd | 73,9 % 0-shot (API) |
Rad 8 - Celle 0 | Rad 8 - Celle 1 | Rad 8 - Celle 2 | Rad 8 - Celle 3 | Rad 8 - Celle 4 |
Selv om disse resultatene er imponerende, betyr de sannsynligvis ikke mye for den gjennomsnittlige forbrukeren. Google skyver Gemini Nano på Pixel 8 Pro er mer spennende for meg, siden det er en modell for oppgaver på enheten. Mange produsenter begynner å gjøre det legg til AI-funksjoner på enheten, som NVIDIAs TensorRT-LLM til enhetene de lager. For meg er dette et mer spennende perspektiv for fremtiden til AI, der vi kan ha ekte personlige assistenter innebygd i telefonene våre og tilpasse AI-modellen vår slik at den fungerer best for våre individuelle behov.
En av de beste, og sannsynligvis mulige, fremtidige applikasjonene for disse LLM AI-ene er noe vi alle har drømt om siden Star Trek for 80 pluss år siden. En universell språkoversetter. ChatGPT kan allerede fungere som oversetter, men det er ganske lang behandlingstid for å generere oversettelsene. Det er nå AI-modeller som kan oversette stemmeskuespill til et annet språk, og holde den originale skuespillerens stemme intakt. Jeg er en stor fan av anime, så vel som japanske og koreanske dramaer, jeg vil elske en verden der jeg kan trykk på en knapp på TV-en min og få høre de originale skuespillernes stemme, men bare hør den på engelsk sanntid. Ettersom disse megaselskapene konkurrerer om å overgå hverandre i AI-utvikling, nærmer denne virkeligheten seg nærmere og nærmere.