Google Gemini försöker sätta ChatGPT i backspegeln

click fraud protection

Vad du behöver veta

  • AI-loppet hettas till när Google har släppt en ny AI-modell (tänk GPT-4 vs GPT-3) för att driva deras AI-ekosystem.
  • Googles riktmärken visar att Gemini presterar bättre än GPT-4V i flera prestandamått.
  • Gemini kommer i tre format: Ultra, Pro och Nano.
  • Pixel 8 Pro kommer att vara den första Pixel som implementerar Gemini genom Gemini Nano.
  • Gemini Pro kommer att vara tillgänglig via Gemini API i Google AI Studio den december. 13:e.

Med den senaste omvälvning på OpenAI med sparken och sedan återanställning av Sam Altman, Google måste ha luktat blod i vattnet för bara några veckor senare tillkännagav Google en ny AI-modell som verkar vara mer kraftfull än GPT-4V.

Google meddelade Google Gemini eftersom framtiden för AI för Google och från och med idag kommer att driva Bard, och snart kommer det att komma till alla Googles AI-produkter. Med 3 olika storlekar av modellen: Ultra, Pro och Nano, är Gemini 1.0 byggd för att vara allestädes närvarande precis som resten av Google.

Vad är Google Gemini?

Google kallar Gemini "den mest kapabla och allmänna modellen vi någonsin har byggt." Det är backend-modellen som kommer att driva Googles stack av AI-produkter, även om beslutet att släppa modellen med tre storlekar.

  • Gemini Ultra — Googles största och mest kapabla modell för mycket komplexa uppgifter.
  • Gemini Pro — Googles bästa modell för att skala över ett brett spektrum av uppgifter.
  • Gemini Nano — Googles mest effektiva modell för uppgifter på enheten.

Några av prestandasiffrorna som bjuds av Google för Gemini är ganska imponerande, men om jag har lärt mig en sak inom teknik, lita inte på tillverkarens riktmärken. Med detta sagt är det svårt att ifrågasätta Geminis effektivitet när man ser det fungera live. @rowancheung på X(Twitter) har lagt upp en video visar Gemini i aktion och resultaten är inget mindre än anmärkningsvärt.

🚨 BREAKING: Google DeepMind avslöjade precis Gemini-ChatGPT: s största konkurrent. Gemini är den FÖRSTA multimodala AI: n som överträffar mänskliga experter på MMLU, med över 90 %. pic.twitter.com/A7It1hPKGQ6 december 2023

Se mer

Hur fungerar Google Gemini?

Google pekar ut Gemini som den bästa AI-modellen på planeten genom de riktmärken som den publicerade. Om dessa riktmärken håller upp till 3:e parts testning kommer Gemini att vara den bästa hunden på marknaden, åtminstone tills OpenAI släpps ChatGPT-5. Den stora regeln med ekonomin som den är uppbyggd för närvarande är att när företag tävlar om att ha den bästa produkten vinner konsumenterna oftast.

Tvillingarna borde driva OpenAI att fortsätta driva innovation, men uppenbarligen har det funnits många farhågor om hänsynslös forskning utan ordentliga hänsyn till säkerhet, även från VD: ar som Satya Nadella jämför AI med atomenergi.

Gemini Ultra är den första modellen som överträffar mänskliga experter på MMLU (massiv multitask språkförståelse), som använder en kombination av 57 ämnen som matematik, fysik, historia, juridik, medicin och etik för att testa både världskunskap och problemlösning förmågor.

Google

Google Gemini överträffade ChatGPT-4V i de flesta av de riktmärken som visades av Google. Ibland med över 4 % poäng. Riktmärket med det mest intressanta namnet ur gänget, HellaSwag, var det som Gemini underpresterade jämfört med ChatGPT-4V. Ta en titt på hela listan med benchmarks.

Svep för att rulla horisontellt
Förmåga Benchmark Beskrivning Gemini Ultra GPT-4V
Allmän MMLU Representation av frågor i 57 ämnen (inkl. STEM, humaniora och andra) 90,0 % CoT@32* 86,4 % 5-shot* (rapporterat)
Resonemang Big-Bench Hard Mångsidig uppsättning av utmanande uppgifter som kräver resonemang i flera steg 83,6 % 3-skott 83,1 % 3-shot (API),
Rad 2 - Cell 0 SLÄPPA Läsförståelse (F1-poäng) 82.4 Variabla skott 80,9 3-skott (rapporterad)
Rad 3 - Cell 0 HellaSwag Sunt resonemang för vardagliga sysslor 87,8 % 10-skott* 95,3 % 10-skott* (rapporterat)
Matematik GSM8K Grundläggande aritmetiska manipulationer (inkl. Matematiska problem i grundskolan) 94,4% maj1@32 92,0 % 5-shot CoT (rapporterad)
Rad 5 - Cell 0 MATEMATIK Utmanande matematiska problem (inkl. algebra, geometri, pre-calculus och andra) 53,2 % 4-skott 52,9 % 4-shot (API)
Koda HumanEval Python-kodgenerering 74,4 % 0-shot (IT)* 67,0 % 0-shot* (rapporterat)
Rad 7 - Cell 0 Natural2Code Python-kodgenerering. Ny hållen datauppsättning HumanEval-liknande, inte läckt på webben 74,9 % 0-skott 73,9 % 0-shot (API)
Rad 8 - Cell 0 Rad 8 - Cell 1 Rad 8 - Cell 2 Rad 8 - Cell 3 Rad 8 - Cell 4

Även om dessa poäng är imponerande, betyder de förmodligen inte ett ton för den genomsnittliga konsumenten. Att Google trycker Gemini Nano på Pixel 8 Pro är mer spännande för mig eftersom det är en modell för uppgifter på enheten. Många tillverkare börjar göra det lägg till AI-funktioner på enheten, som NVIDIAs TensorRT-LLM till enheterna de tillverkar. För mig är detta en mer spännande framtidsutsikt för AI, där vi kan ha riktiga personliga assistenter inbyggda i våra telefoner och anpassa vår AI-modell för att fungera bäst för våra individuella behov.

En av de bästa, och troligen möjliga, framtida tillämpningarna för dessa LLM AI: er är något vi alla har drömt om sedan Star Trek 80 plus år sedan. En universell språköversättare. ChatGPT kan redan fungera som översättare, men det finns en ganska lång handläggningstid för att generera översättningarna. Det finns nu AI-modeller som kan översätta röstskådespeleri till ett annat språk och hålla den ursprungliga skådespelarens röst intakt. Jag är ett stort fan av anime, såväl som japanska och koreanska dramer, jag skulle älska en värld där jag kan tryck på en knapp på min TV och få höra de ursprungliga skådespelarnas röst men bara höra den på engelska på realtid. När dessa megaföretag tävlar om att överträffa varandra när det gäller AI-utveckling, närmar sig denna verklighet närmare och närmare.