Google Gemini försöker sätta ChatGPT i backspegeln

December 07, 2023
IFönster Centralt

Vad du behöver veta

AI-loppet hettas till när Google har släppt en ny AI-modell (tänk GPT-4 vs GPT-3) för att driva deras AI-ekosystem.
Googles riktmärken visar att Gemini presterar bättre än GPT-4V i flera prestandamått.
Gemini kommer i tre format: Ultra, Pro och Nano.
Pixel 8 Pro kommer att vara den första Pixel som implementerar Gemini genom Gemini Nano.
Gemini Pro kommer att vara tillgänglig via Gemini API i Google AI Studio den december. 13:e.

Med den senaste omvälvning på OpenAI med sparken och sedan återanställning av Sam Altman, Google måste ha luktat blod i vattnet för bara några veckor senare tillkännagav Google en ny AI-modell som verkar vara mer kraftfull än GPT-4V.

Google meddelade Google Gemini eftersom framtiden för AI för Google och från och med idag kommer att driva Bard, och snart kommer det att komma till alla Googles AI-produkter. Med 3 olika storlekar av modellen: Ultra, Pro och Nano, är Gemini 1.0 byggd för att vara allestädes närvarande precis som resten av Google.

Vad är Google Gemini?

Google kallar Gemini "den mest kapabla och allmänna modellen vi någonsin har byggt." Det är backend-modellen som kommer att driva Googles stack av AI-produkter, även om beslutet att släppa modellen med tre storlekar.

Gemini Ultra — Googles största och mest kapabla modell för mycket komplexa uppgifter.
Gemini Pro — Googles bästa modell för att skala över ett brett spektrum av uppgifter.
Gemini Nano — Googles mest effektiva modell för uppgifter på enheten.

Några av prestandasiffrorna som bjuds av Google för Gemini är ganska imponerande, men om jag har lärt mig en sak inom teknik, lita inte på tillverkarens riktmärken. Med detta sagt är det svårt att ifrågasätta Geminis effektivitet när man ser det fungera live. @rowancheung på X(Twitter) har lagt upp en video visar Gemini i aktion och resultaten är inget mindre än anmärkningsvärt.

🚨 BREAKING: Google DeepMind avslöjade precis Gemini-ChatGPT: s största konkurrent. Gemini är den FÖRSTA multimodala AI: n som överträffar mänskliga experter på MMLU, med över 90 %. pic.twitter.com/A7It1hPKGQ6 december 2023

Se mer

Hur fungerar Google Gemini?

Google pekar ut Gemini som den bästa AI-modellen på planeten genom de riktmärken som den publicerade. Om dessa riktmärken håller upp till 3:e parts testning kommer Gemini att vara den bästa hunden på marknaden, åtminstone tills OpenAI släpps ChatGPT-5. Den stora regeln med ekonomin som den är uppbyggd för närvarande är att när företag tävlar om att ha den bästa produkten vinner konsumenterna oftast.

Tvillingarna borde driva OpenAI att fortsätta driva innovation, men uppenbarligen har det funnits många farhågor om hänsynslös forskning utan ordentliga hänsyn till säkerhet, även från VD: ar som Satya Nadella jämför AI med atomenergi.

Gemini Ultra är den första modellen som överträffar mänskliga experter på MMLU (massiv multitask språkförståelse), som använder en kombination av 57 ämnen som matematik, fysik, historia, juridik, medicin och etik för att testa både världskunskap och problemlösning förmågor.

Google

Google Gemini överträffade ChatGPT-4V i de flesta av de riktmärken som visades av Google. Ibland med över 4 % poäng. Riktmärket med det mest intressanta namnet ur gänget, HellaSwag, var det som Gemini underpresterade jämfört med ChatGPT-4V. Ta en titt på hela listan med benchmarks.

Svep för att rulla horisontellt

Förmåga	Benchmark	Beskrivning	Gemini Ultra	GPT-4V
Allmän	MMLU	Representation av frågor i 57 ämnen (inkl. STEM, humaniora och andra)	90,0 % CoT@32*	86,4 % 5-shot* (rapporterat)
Resonemang	Big-Bench Hard	Mångsidig uppsättning av utmanande uppgifter som kräver resonemang i flera steg	83,6 % 3-skott	83,1 % 3-shot (API),
Rad 2 - Cell 0	SLÄPPA	Läsförståelse (F1-poäng)	82.4 Variabla skott	80,9 3-skott (rapporterad)
Rad 3 - Cell 0	HellaSwag	Sunt resonemang för vardagliga sysslor	87,8 % 10-skott*	95,3 % 10-skott* (rapporterat)
Matematik	GSM8K	Grundläggande aritmetiska manipulationer (inkl. Matematiska problem i grundskolan)	94,4% maj1@32	92,0 % 5-shot CoT (rapporterad)
Rad 5 - Cell 0	MATEMATIK	Utmanande matematiska problem (inkl. algebra, geometri, pre-calculus och andra)	53,2 % 4-skott	52,9 % 4-shot (API)
Koda	HumanEval	Python-kodgenerering	74,4 % 0-shot (IT)*	67,0 % 0-shot* (rapporterat)
Rad 7 - Cell 0	Natural2Code	Python-kodgenerering. Ny hållen datauppsättning HumanEval-liknande, inte läckt på webben	74,9 % 0-skott	73,9 % 0-shot (API)
Rad 8 - Cell 0	Rad 8 - Cell 1	Rad 8 - Cell 2	Rad 8 - Cell 3	Rad 8 - Cell 4

Även om dessa poäng är imponerande, betyder de förmodligen inte ett ton för den genomsnittliga konsumenten. Att Google trycker Gemini Nano på Pixel 8 Pro är mer spännande för mig eftersom det är en modell för uppgifter på enheten. Många tillverkare börjar göra det lägg till AI-funktioner på enheten, som NVIDIAs TensorRT-LLM till enheterna de tillverkar. För mig är detta en mer spännande framtidsutsikt för AI, där vi kan ha riktiga personliga assistenter inbyggda i våra telefoner och anpassa vår AI-modell för att fungera bäst för våra individuella behov.

En av de bästa, och troligen möjliga, framtida tillämpningarna för dessa LLM AI: er är något vi alla har drömt om sedan Star Trek 80 plus år sedan. En universell språköversättare. ChatGPT kan redan fungera som översättare, men det finns en ganska lång handläggningstid för att generera översättningarna. Det finns nu AI-modeller som kan översätta röstskådespeleri till ett annat språk och hålla den ursprungliga skådespelarens röst intakt. Jag är ett stort fan av anime, såväl som japanska och koreanska dramer, jag skulle älska en värld där jag kan tryck på en knapp på min TV och få höra de ursprungliga skådespelarnas röst men bara höra den på engelska på realtid. När dessa megaföretag tävlar om att överträffa varandra när det gäller AI-utveckling, närmar sig denna verklighet närmare och närmare.