Google Gemini stara się umieścić ChatGPT w lusterku wstecznym

December 07, 2023
WOkna Centralne

Co musisz wiedzieć

Wyścig sztucznej inteligencji nabiera tempa, gdy Google wypuściło nowy model sztucznej inteligencji (pomyśl o GPT-4 kontra GPT-3), który ma zasilić ich ekosystem sztucznej inteligencji.
Testy porównawcze Google pokazują, że Gemini przewyższa GPT-4V pod kilkoma wskaźnikami wydajności.
Gemini będzie dostępny w 3 formatach: Ultra, Pro i Nano.
Pixel 8 Pro będzie pierwszym Pixelem, w którym zastosowano technologię Gemini za pośrednictwem Gemini Nano.
Gemini Pro będzie dostępny poprzez Gemini API w Google AI Studio od grudnia. 13.

Z niedawnym wstrząsy w OpenAI wraz ze zwolnieniem i ponownym zatrudnieniem Sama Altmana, Google musiało wyczuć krew w wodzie, bo zaledwie kilka tygodni później Google ogłosiło nowy model AI, który wydaje się być potężniejszy od GPT-4V.

Google ogłosił Google Gemini jako przyszłość sztucznej inteligencji dla Google i od dzisiaj będzie napędzać Bard, a wkrótce będzie dostępne we wszystkich produktach Google związanych ze sztuczną inteligencją. Dzięki 3 różnym rozmiarom modelu: Ultra, Pro i Nano, Gemini 1.0 jest wszechobecny, tak jak reszta Google.

Co to jest Google Gemini?

Google nazywa Gemini „najbardziej wydajnym i ogólnym modelem, jaki kiedykolwiek zbudowaliśmy”. Jest to model backendowy który będzie zasilał stos produktów AI firmy Google, mimo decyzji o wypuszczeniu modelu z trzema rozmiary.

Bliźnięta Ultra — Największy i najbardziej wydajny model Google do bardzo złożonych zadań.
Bliźnięta Pro — najlepszy model Google do skalowania w szerokim zakresie zadań.
Bliźnięta Nano — Najbardziej wydajny model Google do zadań na urządzeniu.

Niektóre dane dotyczące wydajności reklamowane przez Google dla Gemini są imponujące, ale jeśli nauczyłem się jednej rzeczy w dziedzinie technologii, nie ufaj testom porównawczym producentów. Biorąc to pod uwagę, trudno kwestionować skuteczność Gemini, widząc, jak działa na żywo. @rowancheung na X(Twitterze) opublikował film pokazując Gemini w akcji, a wyniki są po prostu niezwykłe.

🚨 ŁAMANIE: Google DeepMind właśnie ujawniło największego konkurenta Gemini-ChatGPT. Gemini jest PIERWSZĄ multimodalną sztuczną inteligencją, która przewyższa ludzkich ekspertów w MMLU, uzyskując ponad 90%. pic.twitter.com/A7It1hPKGQ6 grudnia 2023 r

Zobacz więcej

Jak działa Google Gemini?

W opublikowanych testach Google reklamuje Gemini jako najlepszy model sztucznej inteligencji na świecie. Jeśli te testy porównawcze wytrzymają testy stron trzecich, Gemini będzie najlepszym psem na rynku, przynajmniej do czasu wydania OpenAI CzatGPT-5. Ważną zasadą obowiązującą w obecnej strukturze gospodarki jest to, że gdy firmy konkurują o najlepszy produkt, zazwyczaj wygrywają konsumenci.

Gemini powinno zachęcać OpenAI do dalszego promowania innowacji, ale oczywiście pojawiło się wiele obaw związanych z lekkomyślnymi badaniami bez należytego uwzględnienia bezpieczeństwa, nawet ze strony Dyrektorzy generalni tacy jak Satya Nadella porównują sztuczną inteligencję do energii atomowej.

Gemini Ultra to pierwszy model, który przewyższa ekspertów w dziedzinie MMLU (massive multitask Language Understanding), który wykorzystuje połączenie 57 przedmiotów, takich jak matematyka, fizyka, historia, prawo, medycyna i etyka, do sprawdzania wiedzy o świecie i rozwiązywania problemów zdolności.

Google

Google Gemini uzyskało lepsze wyniki niż ChatGPT-4V w większości testów porównawczych pokazanych przez Google. Czasem o ponad 4 punkty procentowe. Benchmark o najciekawszej nazwie ze wszystkich, HellaSwag, był tym, który Gemini osiągnął słabsze wyniki w porównaniu z ChatGPT-4V. Zapoznaj się z pełną listą benchmarków.

Przesuń, aby przewijać w poziomie

Zdolność	Reper	Opis	Bliźnięta Ultra	GPT-4V
Ogólny	MMLU	Reprezentacja pytań z 57 tematów (m.in. STEM, nauki humanistyczne i inne)	90,0% CoT@32*	86,4% 5 strzałów* (zgłoszone)
Rozumowanie	Twarda na dużej ławce	Zróżnicowany zestaw trudnych zadań wymagających wieloetapowego rozumowania	83,6% 3 strzały	83,1% 3 strzały (API),
Wiersz 2 — komórka 0	UPUSZCZAĆ	Czytanie ze zrozumieniem (wynik F1)	82,4 Strzały zmienne	80,9 3 strzały (zgłoszone)
Wiersz 3 — komórka 0	HellaSwag	Zdrowe rozumowanie w codziennych zadaniach	87,8% 10 strzałów*	95,3% 10 strzałów* (zgłoszone)
Matematyka	GSM8K	Podstawowe manipulacje arytmetyczne (m.in. Problemy matematyczne w szkole podstawowej)	94,4% maj1@32	92,0% 5-strzałowy CoT (zgłoszone)
Wiersz 5 — komórka 0	MATEMATYKA	Trudne zadania matematyczne (m.in. algebra, geometria, rachunek wstępny i inne)	53,2% 4 strzały	52,9% 4 strzały (API)
Kod	HumanEval	Generowanie kodu w Pythonie	74,4% 0 strzałów (IT)*	67,0% 0 strzałów* (zgłoszone)
Wiersz 7 — komórka 0	Kod Natural2	Generowanie kodu w Pythonie. Nowy zestaw danych podobny do HumanEval, który nie wyciekł do sieci	74,9% 0 strzałów	73,9% 0 strzałów (API)
Wiersz 8 — komórka 0	Wiersz 8 — komórka 1	Wiersz 8 – Komórka 2	Wiersz 8 – komórka 3	Wiersz 8 – komórka 4

Chociaż te wyniki są imponujące, prawdopodobnie nie mają wielkiego znaczenia dla przeciętnego konsumenta. Google wypycha Gemini Nano na Pixela 8 Pro jest dla mnie tym bardziej ekscytujące, że jest to model do zadań na urządzeniu. Wielu producentów zaczyna to robić dodaj funkcje sztucznej inteligencji na urządzeniu, takie jak TensorRT-LLM firmy NVIDIA do produkowanych przez nich urządzeń. Dla mnie jest to bardziej ekscytująca perspektywa przyszłości sztucznej inteligencji, w której możemy mieć prawdziwych osobistych asystentów wbudowanych w nasze telefony i dostosowywać nasz model sztucznej inteligencji tak, aby najlepiej odpowiadał naszym indywidualnym potrzebom.

Jedno z najlepszych i prawdopodobnie możliwych przyszłych zastosowań AI LLM to coś, o czym wszyscy marzyliśmy od Star Trek 80 ponad lat temu. Uniwersalny tłumacz języka. ChatGPT może już działać jako tłumacz, ale wygenerowanie tłumaczeń zajmuje dość długi czas. Są teraz Modele AI, które potrafią tłumaczyć grę głosową na inny język, zachowując nienaruszony głos oryginalnego aktora. Jestem wielkim fanem anime, a także japońskich i koreańskich dramatów. Bardzo chciałbym mieć świat, w którym mogę naciśnij przycisk na moim telewizorze i usłysz głos oryginalnych aktorów, ale po prostu po angielsku czas rzeczywisty. W miarę jak te megakorporacje konkurują ze sobą, by prześcignąć się w rozwoju sztucznej inteligencji, rzeczywistość ta zbliża się coraz bardziej.