Google Gemini busca colocar ChatGPT no retrovisor
O que você precisa saber
- A corrida pela IA esquenta quando o Google lança um novo modelo de IA (pense em GPT-4 vs GPT-3) para alimentar seu ecossistema de IA.
- Os benchmarks do Google mostram que o Gemini supera o GPT-4V em várias métricas de desempenho.
- Gemini virá em 3 formatos: Ultra, Pro e Nano.
- O Pixel 8 Pro será o primeiro Pixel a implementar o Gemini através do Gemini Nano.
- O Gemini Pro estará disponível por meio da API Gemini no Google AI Studio em dezembro. 13º.
Com o recente turbulência na OpenAI com a demissão e recontratação de Sam Altman, O Google deve ter sentido cheiro de sangue na água porque apenas algumas semanas depois o Google anunciou um novo modelo de IA que parece ser mais poderoso que o GPT-4V.
Google anunciou o Google Gemini como o futuro da IA para o Google e a partir de hoje estará impulsionando o Bard, e em breve chegará a todos os produtos de IA do Google. Com três tamanhos diferentes de modelo: Ultra, Pro e Nano, o Gemini 1.0 foi desenvolvido para ser onipresente, assim como o resto do Google.
O que é o Google Gêmeos?
O Google está chamando o Gemini de “o modelo mais capaz e geral que já construímos”. É o modelo de back-end que impulsionará a pilha de produtos de IA do Google, embora a decisão de lançar o modelo com três tamanhos.
- Gêmeos Ultra — O maior e mais capaz modelo do Google para tarefas altamente complexas.
- Gêmeos Profissional — O melhor modelo do Google para escalar uma ampla variedade de tarefas.
- Gêmeos Nano — O modelo mais eficiente do Google para tarefas no dispositivo.
Alguns dos números de desempenho divulgados pelo Google para Gemini são bastante impressionantes, mas se aprendi alguma coisa em tecnologia, não confie nos benchmarks dos fabricantes. Dito isto, é difícil questionar a eficácia do Gemini ao vê-lo funcionar ao vivo. @rowancheung no X (Twitter) postou um vídeo mostrando Gêmeos em ação e os resultados são notáveis.
🚨 QUEBRANDO: O Google DeepMind acaba de revelar o maior concorrente do Gemini- ChatGPT. Gemini é a PRIMEIRA IA multimodal a superar os especialistas humanos no MMLU, com pontuação superior a 90%. pic.twitter.com/A7It1hPKGQ6 de dezembro de 2023
Ver mais
Qual é o desempenho do Google Gemini?
O Google está promovendo o Gemini como o melhor modelo de IA do planeta por meio dos benchmarks que publicou. Se esses benchmarks resistirem aos testes de terceiros, o Gemini será o líder do mercado, pelo menos até o lançamento do OpenAI Bate-papoGPT-5. A grande regra da economia tal como está estruturada atualmente é que, à medida que as empresas competem para ter o melhor produto, os consumidores geralmente ganham.
A Gemini deveria pressionar a OpenAI para continuar impulsionando a inovação, mas obviamente, tem havido muitas preocupações sobre pesquisas imprudentes sem as devidas considerações de segurança, mesmo de CEOs como Satya Nadella comparando IA à energia atômica.
O Google Gemini superou o ChatGPT-4V na maioria dos benchmarks mostrados pelo Google. Às vezes, em mais de 4% pontos. O benchmark com o nome mais interessante do grupo, HellaSwag, foi aquele que o Gemini teve desempenho inferior em comparação ao ChatGPT-4V. Dê uma olhada na lista completa de benchmarks.
Capacidade | Referência | Descrição | Gêmeos Ultra | GPT-4V |
---|---|---|---|---|
Em geral | MMLU | Representação de questões em 57 disciplinas (incl. STEM, humanidades e outros) | 90,0% CoT@32* | 86,4% de 5 disparos* (relatado) |
Raciocínio | Banco grande duro | Conjunto diversificado de tarefas desafiadoras que exigem raciocínio em várias etapas | 83,6% 3 tiros | 83,1% de 3 disparos (API), |
Linha 2 - Célula 0 | DERRUBAR | Compreensão de leitura (pontuação F1) | 82.4 Tiros variáveis | 80,9 3 tiros (relatado) |
Linha 3 - Célula 0 | HellaSwag | Raciocínio de bom senso para tarefas diárias | 87,8% de 10 disparos* | 95,3% de 10 disparos* (relatado) |
Matemática | GSM8K | Manipulações aritméticas básicas (incl. Problemas de matemática do ensino fundamental) | 94,4% maio1@32 | 92,0% CoT de 5 doses (relatado) |
Linha 5 - Célula 0 | MATEMÁTICA | Problemas desafiadores de matemática (incl. álgebra, geometria, pré-cálculo e outros) | 53,2% 4 tiros | 52,9% 4 disparos (API) |
Código | Avaliação Humana | Geração de código Python | 74,4% disparo zero (IT)* | 67,0% tiro zero* (relatado) |
Linha 7 - Célula 0 | Natural2Code | Geração de código Python. Novo conjunto de dados semelhante ao HumanEval, não vazado na web | 74,9% tiro zero | 73,9% disparo zero (API) |
Linha 8 - Célula 0 | Linha 8 - Célula 1 | Linha 8 - Célula 2 | Linha 8 - Célula 3 | Linha 8 - Célula 4 |
Embora essas pontuações sejam impressionantes, provavelmente não significam muito para o consumidor médio. O Google empurrando o Gemini Nano para o Pixel 8 Pro é mais emocionante para mim, pois é um modelo para tarefas no dispositivo. Muitos fabricantes estão começando a adicione recursos de IA no dispositivo, como TensorRT-LLM da NVIDIA aos dispositivos que eles fabricam. Para mim, esta é uma perspectiva mais entusiasmante para o futuro da IA, onde poderemos ter verdadeiros assistentes pessoais integrados nos nossos telefones e personalizar o nosso modelo de IA para funcionar melhor de acordo com as nossas necessidades individuais.
Uma das melhores e provavelmente possíveis aplicações futuras para essas IAs LLM é algo com que todos sonhamos desde Star Trek, há mais de 80 anos. Um tradutor de linguagem universal. O ChatGPT já pode atuar como tradutor, mas há um tempo de processamento bastante longo para gerar as traduções. Há agora Modelos de IA que podem traduzir a dublagem para outro idioma, mantendo intacta a voz do ator original. Sou um grande fã de animes, assim como de dramas japoneses e coreanos, adoraria um mundo onde pudesse pressione um botão na minha TV e ouça a voz dos atores originais, mas apenas ouça em inglês em tempo real. À medida que estas megacorporações competem para se superarem no avanço da IA, esta realidade aproxima-se cada vez mais.