Google Gemini прагне розмістити ChatGPT у дзеркалі заднього виду

December 07, 2023
ВВікна центральні

Що потрібно знати

Гонка штучного інтелекту загострюється, оскільки Google випустила нову модель штучного інтелекту (вважайте GPT-4 проти GPT-3), щоб забезпечити екосистему штучного інтелекту.
Порівняльні показники Google показують, що Gemini перевершує GPT-4V за кількома показниками продуктивності.
Gemini буде представлено в 3 форматах: Ultra, Pro і Nano.
Pixel 8 Pro стане першим Pixel, який використовує Gemini через Gemini Nano.
Gemini Pro буде доступний через Gemini API у Google AI Studio з грудня. 13-й.

З недавнім потрясіння в OpenAI зі звільненням, а потім повторним наймом Сема Альтмана, мабуть, Google відчув запах крові у воді, тому що лише через кілька тижнів Google анонсувала нову модель штучного інтелекту, яка, здається, потужніша за GPT-4V.

Google анонсував Google Gemini оскільки майбутнє штучного інтелекту для Google і з сьогоднішнього дня працюватиме на Bard, а незабаром воно з’явиться в усіх продуктах штучного інтелекту Google. З трьома різними розмірами моделі: Ultra, Pro та Nano, Gemini 1.0 створено для повсюдного використання, як і решта Google.

Що таке Google Gemini?

Google називає Gemini «найпотужнішою та найзагальнішою моделлю, яку ми коли-небудь створювали». Це базова модель який буде підтримувати пакет продуктів штучного інтелекту Google, хоча рішення випустити модель із трьома розміри.

Gemini Ultra — Найбільша та найпотужніша модель Google для надскладних завдань.
Gemini Pro — Найкраща модель Google для масштабування широкого кола завдань.
Близнюки Нано — Найефективніша модель Google для завдань на пристрої.

Деякі з показників продуктивності, які рекламує Google для Gemini, досить вражаючі, але якщо я навчився чогось у техніці, не довіряйте тестам виробника. Зважаючи на це, важко поставити під сумнів ефективність Gemini, спостерігаючи, як він працює наживо. @rowancheung на X (Твіттер) опублікував відео показуючи Gemini в дії, і результати не що інше, як чудові.

🚨 НАРУШНО: Google DeepMind щойно представив Gemini-ChatGPT, що є найбільшим конкурентом. Gemini — ПЕРШИЙ мультимодальний штучний інтелект, який перевершив експертів-людей на MMLU, набравши понад 90%. pic.twitter.com/A7It1hPKGQ6 грудня 2023 р

Побачити більше

Як працює Google Gemini?

Google рекламує Gemini як найкращу модель штучного інтелекту на планеті через опубліковані тести. Якщо ці тести витримають тестування сторонніх розробників, Gemini буде найкращою собакою на ринку, принаймні до випуску OpenAI ЧатGPT-5. Велике правило економіки, як вона структурована на даний момент, полягає в тому, що коли компанії конкурують за найкращий продукт, зазвичай виграють споживачі.

Gemini слід спонукати OpenAI продовжувати просувати інновації, але, очевидно, було багато занепокоєнь щодо безрозсудних досліджень без належних міркувань безпеки, навіть з Такі генеральні директори, як Сатья Наделла, порівнюють ШІ з атомною енергією.

Gemini Ultra — це перша модель, яка перевершує експертів-людей у MMLU (розумінні мови масового багатозадачного режиму), яка використовує поєднання 57 предметів, таких як математика, фізика, історія, право, медицина та етика для перевірки як знання світу, так і вирішення проблем здібності.

Google

Google Gemini перевершив ChatGPT-4V у більшості тестів, показаних Google. Іноді більше ніж на 4% пунктів. Еталонний тест із найцікавішою назвою HellaSwag був тим, що Gemini показав менше, ніж ChatGPT-4V. Подивіться на повний список тестів.

Проведіть пальцем, щоб прокрутити по горизонталі

Можливість	Еталон	опис	Gemini Ultra	ГПТ-4В
Загальний	MMLU	Представлення питань з 57 предметів (в т.ч. STEM, гуманітарні науки та інші)	90,0% CoT@32*	86,4% 5 пострілів* (повідомлено)
Міркування	Біг-Бенч Хард	Різноманітний набір складних завдань, що вимагають багатоетапного обґрунтування	83,6% 3-постріл	83,1% 3-розрядний (API),
Рядок 2 – клітинка 0	КРАПЛЯ	Розуміння прочитаного (бал F1)	82.4 Перемінні удари	80,9 3 постріли (повідомляється)
Рядок 3 – клітинка 0	HellaSwag	Розумні міркування для щоденних завдань	87,8% 10 ударів*	95,3% 10 ударів* (повідомлено)
математика	GSM8K	Основні арифметичні операції (в т.ч. Шкільні завдання з математики)	94,4% 1@32 травня	92,0% 5-shot CoT (повідомляється)
Рядок 5 - клітинка 0	МАТЕМАТИКА	Складні математичні завдання (в т.ч. алгебра, геометрія, передчислення та інші)	53,2% 4-х ударів	52,9% 4 кадри (API)
Код	HumanEval	Генерація коду Python	74,4% 0-удар (ІТ)*	67,0% 0 ударів* (повідомлено)
Рядок 7 - клітинка 0	Natural2Code	Генерація коду Python. Новий набір даних, схожий на HumanEval, не просочився в Інтернет	74,9% нульовий удар	73,9% 0-пострілів (API)
Рядок 8 - клітинка 0	Рядок 8 - комірка 1	Рядок 8 - комірка 2	Рядок 8 - клітинка 3	Рядок 8 - клітинка 4

Хоча ці оцінки вражаючі, вони, мабуть, нічого не значать для середнього споживача. Google проштовхує Gemini Nano на Pixel 8 Pro для мене більш захоплююче, оскільки це модель для завдань на пристрої. Багато виробників починають додати можливості ШІ на пристрої, як-от TensorRT-LLM від NVIDIA до пристроїв, які вони виробляють. Для мене це більш захоплююча перспектива майбутнього штучного інтелекту, де ми можемо мати справжніх особистих помічників, вбудованих у наші телефони, і налаштовувати нашу модель штучного інтелекту, щоб найкраще працювати для наших індивідуальних потреб.

Одне з найкращих і, ймовірно, можливих майбутніх програм для цих LLM AIs — це те, про що ми всі мріяли ще з «Зоряного шляху» понад 80 років тому. Універсальний мовний перекладач. ChatGPT уже може виступати в якості перекладача, але для створення перекладів потрібен досить тривалий час. Зараз є Моделі штучного інтелекту, які можуть перекладати озвучку іншою мовою, зберігаючи оригінальний голос актора. Я великий шанувальник аніме, а також японських і корейських драм, я хотів би світ, де я міг натисніть кнопку на моєму телевізорі, щоб почути оригінальний голос акторів, але просто почути його англійською мовою реальний час. Оскільки ці мегакорпорації змагаються, щоб перевершити одна одну у розвитку ШІ, ця реальність наближається все ближче й ближче.