„Google Gemini“ siekia „ChatGPT“ įdėti į galinio vaizdo veidrodį
Ką tu turi žinoti
- Dirbtinio intelekto lenktynės įkaista, nes „Google“ išleido naują AI modelį (pagalvokite, kad GPT-4 ir GPT-3), kad sustiprintų jų AI ekosistemą.
- „Google“ etalonai rodo, kad „Gemini“ pranoksta GPT-4V pagal keletą našumo rodiklių.
- Gemini bus 3 formatai: Ultra, Pro ir Nano.
- „Pixel 8 Pro“ bus pirmasis „Pixel“, kuris įdiegs „Gemini“ per „Gemini Nano“.
- „Gemini Pro“ bus pasiekiamas per Gemini API „Google AI Studio“ gruodžio mėn. 13 d.
Su pastaruoju „OpenAI“ sukrėtimas, kai buvo atleistas ir vėl įdarbintas Sam Altman, Google tikriausiai užuodė kraują vandenyje, nes vos po kelių savaičių Google paskelbė apie naują AI modelį, kuris atrodo galingesnis už GPT-4V.
Google paskelbė „Google Gemini“. kaip „Google“ AI ateitis ir nuo šiandien bus „Bard“ maitinimas, o netrukus jis bus prieinamas visuose „Google“ AI produktuose. 3 skirtingų dydžių modelis: „Ultra“, „Pro“ ir „Nano“, „Gemini 1.0“ sukurtas taip, kad būtų visur, kaip ir visa kita „Google“.
Kas yra Google Gemini?
„Google“ „Gemini“ vadina „pajėgiausiu ir bendriausiu modeliu, kurį kada nors sukūrėme“. Tai backend modelis tai bus „Google“ AI produktų krūva, tačiau sprendimas išleisti modelį su trimis dydžiai.
- Dvyniai Ultra – Didžiausias ir labiausiai pajėgus „Google“ modelis labai sudėtingoms užduotims atlikti.
- Dvyniai Pro – geriausias „Google“ modelis, skirtas įvairioms užduotims keisti.
- Dvyniai Nano – efektyviausias „Google“ užduočių įrenginyje modelis.
Kai kurie našumo skaičiai, kuriuos „Google“ reklamuoja Dvyniams, yra gana įspūdingi, bet jei išmokau vieno dalyko technologijų srityje, nepasitikėkite gamintojų etalonais. Nepaisant to, sunku suabejoti Dvynių veiksmingumu, kai matote, kaip jis veikia gyvai. @rowancheung X („Twitter“) paskelbė vaizdo įrašą parodyti Dvynius veikiant, o rezultatai yra tiesiog nuostabūs.
🚨 NUTRAUKIMAS: „Google DeepMind“ ką tik atskleidė didžiausią „Gemini-ChatGPT“ konkurentą. „Gemini“ yra PIRMOJI multimodalinis dirbtinis intelektas, pranokęs žmonių ekspertus MMLU, surinkęs daugiau nei 90 proc. pic.twitter.com/A7It1hPKGQ2023 m. gruodžio 6 d
Žiūrėti daugiau
Kaip veikia „Google Gemini“?
„Google“ skelbia „Gemini“ kaip geriausią AI modelį planetoje, naudodama savo paskelbtus etalonus. Jei šie etalonai atitiks trečiųjų šalių bandymus, Gemini bus geriausias šuo rinkoje, bent jau iki OpenAI išleidimo. ChatGPT-5. Pagrindinė ekonomikos taisyklė, kokia ji šiuo metu yra, yra ta, kad įmonėms konkuruojant dėl geriausio produkto, dažniausiai laimi vartotojai.
Dvyniai turėtų paskatinti OpenAI ir toliau skatinti naujoves, tačiau akivaizdu, kad buvo daug susirūpinimo dėl neapgalvotų tyrimų be tinkamų saugumo sumetimų, net Tokie generaliniai direktoriai kaip Satya Nadella lygina AI su atomine energija.
„Google Gemini“ pranoko „ChatGPT-4V“ daugelyje „Google“ parodytų etalonų. Kartais daugiau nei 4 % punktų. Etalonas su įdomiausiu pavadinimu „HellaSwag“ buvo tas, kurį „Gemini“ pranoko, palyginti su „ChatGPT-4V“. Peržiūrėkite visą etalonų sąrašą.
gebėjimas | Etalonas | apibūdinimas | Dvyniai Ultra | GPT-4V |
---|---|---|---|---|
Generolas | MMLU | Klausimų pateikimas 57 temose (įsk. STEM, humanitariniai mokslai ir kt.) | 90,0 % CoT@32* | 86,4 % 5 šūvių* (pranešta) |
Samprotavimas | Big-Bench Hard | Įvairių sudėtingų užduočių rinkinys, reikalaujantis kelių žingsnių samprotavimo | 83,6 % 3 šūvių | 83,1 % trijų kadrų (API), |
2 eilutė – 0 langelis | NULEISTI | Skaitymo supratimas (F1 balas) | 82.4 Kintamieji šūviai | 80,9 3 kadrai (pranešta) |
3 eilutė – 0 langelis | HellaSwag | Sąmoningas samprotavimas atliekant kasdienes užduotis | 87,8 % 10 kadrų* | 95,3 % 10 kadrų* (pranešta) |
Matematika | GSM8K | Pagrindinės aritmetinės manipuliacijos (įsk. vidurinės mokyklos matematikos uždaviniai) | 94,4 % maj1@32 | 92,0 % 5 kadrų CoT (pranešta) |
5 eilutė – 0 langelis | MATH | Sudėtingi matematikos uždaviniai (įskaitant. algebra, geometrija, išankstinis skaičiavimas ir kt.) | 53,2 % 4 šūvių | 52,9 % 4 kadrų (API) |
Kodas | HumanEval | Python kodo generavimas | 74,4 % 0-shot (IT)* | 67,0 % 0-shot* (pranešta) |
7 eilutė – 0 langelis | Natural2Code | Python kodo generavimas. Naujas duomenų rinkinys, panašus į „HumanEval“, nebuvo nutekėjęs internete | 74,9 % 0 šūvių | 73,9 % 0-shot (API) |
8 eilutė – 0 langelis | 8 eilutė – 1 langelis | 8 eilutė – 2 langelis | 8 eilutė – 3 langelis | 8 eilutė – 4 langelis |
Nors šie balai yra įspūdingi, vidutiniam vartotojui jie tikriausiai nereiškia. „Google“ perkėlus „Gemini Nano“ į „Pixel 8 Pro“ mane įdomesnis, nes tai yra įrenginio užduočių pavyzdys. Daugelis gamintojų pradeda pridėkite įrenginio AI galimybes, pvz., NVIDIA TensorRT-LLM prie jų gaminamų įrenginių. Man tai yra įdomesnė AI ateities perspektyva, kai galime turėti tikrus asmeninius asistentus, įmontuotus į savo telefonus, ir pritaikyti AI modelį, kad jis geriausiai atitiktų mūsų individualius poreikius.
Viena geriausių ir greičiausiai galimų būsimų šių LLM AI programų yra tai, apie ką visi svajojome nuo Star Trek prieš 80 ir daugiau metų. Universalus kalbos vertėjas. „ChatGPT“ jau gali veikti kaip vertėjas, tačiau vertimų apdorojimas užtrunka gana ilgai. Dabar yra Dirbtinio intelekto modeliai, galintys išversti balso vaidinimą į kitą kalbą, išsaugant originalų aktoriaus balsą. Esu didžiulis anime, taip pat japonų ir korėjiečių dramų gerbėjas, man patiktų pasaulis, kuriame galėčiau paspauskite televizoriaus mygtuką ir išgirskite originalų aktorių balsą, bet tiesiog išgirskite jį anglų kalba realiuoju laiku. Kadangi šios didžiulės korporacijos konkuruoja, kad viena kitą pranoktų dirbtinio intelekto pažangoje, ši realybė vis labiau artėja.