„Google Gemini“ siekia „ChatGPT“ įdėti į galinio vaizdo veidrodį

December 07, 2023
ĮLangai Centriniai

Ką tu turi žinoti

Dirbtinio intelekto lenktynės įkaista, nes „Google“ išleido naują AI modelį (pagalvokite, kad GPT-4 ir GPT-3), kad sustiprintų jų AI ekosistemą.
„Google“ etalonai rodo, kad „Gemini“ pranoksta GPT-4V pagal keletą našumo rodiklių.
Gemini bus 3 formatai: Ultra, Pro ir Nano.
„Pixel 8 Pro“ bus pirmasis „Pixel“, kuris įdiegs „Gemini“ per „Gemini Nano“.
„Gemini Pro“ bus pasiekiamas per Gemini API „Google AI Studio“ gruodžio mėn. 13 d.

Su pastaruoju „OpenAI“ sukrėtimas, kai buvo atleistas ir vėl įdarbintas Sam Altman, Google tikriausiai užuodė kraują vandenyje, nes vos po kelių savaičių Google paskelbė apie naują AI modelį, kuris atrodo galingesnis už GPT-4V.

Google paskelbė „Google Gemini“. kaip „Google“ AI ateitis ir nuo šiandien bus „Bard“ maitinimas, o netrukus jis bus prieinamas visuose „Google“ AI produktuose. 3 skirtingų dydžių modelis: „Ultra“, „Pro“ ir „Nano“, „Gemini 1.0“ sukurtas taip, kad būtų visur, kaip ir visa kita „Google“.

Kas yra Google Gemini?

„Google“ „Gemini“ vadina „pajėgiausiu ir bendriausiu modeliu, kurį kada nors sukūrėme“. Tai backend modelis tai bus „Google“ AI produktų krūva, tačiau sprendimas išleisti modelį su trimis dydžiai.

Dvyniai Ultra – Didžiausias ir labiausiai pajėgus „Google“ modelis labai sudėtingoms užduotims atlikti.
Dvyniai Pro – geriausias „Google“ modelis, skirtas įvairioms užduotims keisti.
Dvyniai Nano – efektyviausias „Google“ užduočių įrenginyje modelis.

Kai kurie našumo skaičiai, kuriuos „Google“ reklamuoja Dvyniams, yra gana įspūdingi, bet jei išmokau vieno dalyko technologijų srityje, nepasitikėkite gamintojų etalonais. Nepaisant to, sunku suabejoti Dvynių veiksmingumu, kai matote, kaip jis veikia gyvai. @rowancheung X („Twitter“) paskelbė vaizdo įrašą parodyti Dvynius veikiant, o rezultatai yra tiesiog nuostabūs.

🚨 NUTRAUKIMAS: „Google DeepMind“ ką tik atskleidė didžiausią „Gemini-ChatGPT“ konkurentą. „Gemini“ yra PIRMOJI multimodalinis dirbtinis intelektas, pranokęs žmonių ekspertus MMLU, surinkęs daugiau nei 90 proc. pic.twitter.com/A7It1hPKGQ2023 m. gruodžio 6 d

Žiūrėti daugiau

Kaip veikia „Google Gemini“?

„Google“ skelbia „Gemini“ kaip geriausią AI modelį planetoje, naudodama savo paskelbtus etalonus. Jei šie etalonai atitiks trečiųjų šalių bandymus, Gemini bus geriausias šuo rinkoje, bent jau iki OpenAI išleidimo. ChatGPT-5. Pagrindinė ekonomikos taisyklė, kokia ji šiuo metu yra, yra ta, kad įmonėms konkuruojant dėl geriausio produkto, dažniausiai laimi vartotojai.

Dvyniai turėtų paskatinti OpenAI ir toliau skatinti naujoves, tačiau akivaizdu, kad buvo daug susirūpinimo dėl neapgalvotų tyrimų be tinkamų saugumo sumetimų, net Tokie generaliniai direktoriai kaip Satya Nadella lygina AI su atomine energija.

„Gemini Ultra“ yra pirmasis modelis, pranokstantis žmonių ekspertus pagal MMLU (masyvus daugiafunkcinis kalbos supratimas), kuris naudoja 57 dalykų, tokių kaip matematika, fizika, istorija, teisė, medicina ir etika, derinys, skirtas pasaulio pažinimui ir problemų sprendimui patikrinti gebėjimus.

Google

„Google Gemini“ pranoko „ChatGPT-4V“ daugelyje „Google“ parodytų etalonų. Kartais daugiau nei 4 % punktų. Etalonas su įdomiausiu pavadinimu „HellaSwag“ buvo tas, kurį „Gemini“ pranoko, palyginti su „ChatGPT-4V“. Peržiūrėkite visą etalonų sąrašą.

Braukite, kad slinktumėte horizontaliai

gebėjimas	Etalonas	apibūdinimas	Dvyniai Ultra	GPT-4V
Generolas	MMLU	Klausimų pateikimas 57 temose (įsk. STEM, humanitariniai mokslai ir kt.)	90,0 % CoT@32*	86,4 % 5 šūvių* (pranešta)
Samprotavimas	Big-Bench Hard	Įvairių sudėtingų užduočių rinkinys, reikalaujantis kelių žingsnių samprotavimo	83,6 % 3 šūvių	83,1 % trijų kadrų (API),
2 eilutė – 0 langelis	NULEISTI	Skaitymo supratimas (F1 balas)	82.4 Kintamieji šūviai	80,9 3 kadrai (pranešta)
3 eilutė – 0 langelis	HellaSwag	Sąmoningas samprotavimas atliekant kasdienes užduotis	87,8 % 10 kadrų*	95,3 % 10 kadrų* (pranešta)
Matematika	GSM8K	Pagrindinės aritmetinės manipuliacijos (įsk. vidurinės mokyklos matematikos uždaviniai)	94,4 % maj1@32	92,0 % 5 kadrų CoT (pranešta)
5 eilutė – 0 langelis	MATH	Sudėtingi matematikos uždaviniai (įskaitant. algebra, geometrija, išankstinis skaičiavimas ir kt.)	53,2 % 4 šūvių	52,9 % 4 kadrų (API)
Kodas	HumanEval	Python kodo generavimas	74,4 % 0-shot (IT)*	67,0 % 0-shot* (pranešta)
7 eilutė – 0 langelis	Natural2Code	Python kodo generavimas. Naujas duomenų rinkinys, panašus į „HumanEval“, nebuvo nutekėjęs internete	74,9 % 0 šūvių	73,9 % 0-shot (API)
8 eilutė – 0 langelis	8 eilutė – 1 langelis	8 eilutė – 2 langelis	8 eilutė – 3 langelis	8 eilutė – 4 langelis

Nors šie balai yra įspūdingi, vidutiniam vartotojui jie tikriausiai nereiškia. „Google“ perkėlus „Gemini Nano“ į „Pixel 8 Pro“ mane įdomesnis, nes tai yra įrenginio užduočių pavyzdys. Daugelis gamintojų pradeda pridėkite įrenginio AI galimybes, pvz., NVIDIA TensorRT-LLM prie jų gaminamų įrenginių. Man tai yra įdomesnė AI ateities perspektyva, kai galime turėti tikrus asmeninius asistentus, įmontuotus į savo telefonus, ir pritaikyti AI modelį, kad jis geriausiai atitiktų mūsų individualius poreikius.

Viena geriausių ir greičiausiai galimų būsimų šių LLM AI programų yra tai, apie ką visi svajojome nuo Star Trek prieš 80 ir daugiau metų. Universalus kalbos vertėjas. „ChatGPT“ jau gali veikti kaip vertėjas, tačiau vertimų apdorojimas užtrunka gana ilgai. Dabar yra Dirbtinio intelekto modeliai, galintys išversti balso vaidinimą į kitą kalbą, išsaugant originalų aktoriaus balsą. Esu didžiulis anime, taip pat japonų ir korėjiečių dramų gerbėjas, man patiktų pasaulis, kuriame galėčiau paspauskite televizoriaus mygtuką ir išgirskite originalų aktorių balsą, bet tiesiog išgirskite jį anglų kalba realiuoju laiku. Kadangi šios didžiulės korporacijos konkuruoja, kad viena kitą pranoktų dirbtinio intelekto pažangoje, ši realybė vis labiau artėja.