Google Gemini busca dejar ChatGPT en el espejo retrovisor

click fraud protection

Lo que necesitas saber

  • La carrera de la IA se intensifica cuando Google lanzó un nuevo modelo de IA (piense en GPT-4 frente a GPT-3) para impulsar su ecosistema de IA.
  • Los puntos de referencia de Google muestran que Gemini supera al GPT-4V en varias métricas de rendimiento.
  • Gemini vendrá en 3 formatos: Ultra, Pro y Nano.
  • El Pixel 8 Pro será el primer Pixel en implementar Gemini a través de Gemini Nano.
  • Gemini Pro estará disponible a través de la API Gemini en Google AI Studio el 1 de diciembre. 13.

con el reciente agitación en OpenAI con el despido y luego recontratación de Sam Altman, Google debe haber olido sangre en el agua porque apenas unas semanas después, Google anunció un nuevo modelo de inteligencia artificial que parece ser más poderoso que GPT-4V.

Google anunció Google Géminis como el futuro de la IA para Google y a partir de hoy impulsará a Bard, y pronto llegará a todos los productos de IA de Google. Con 3 tamaños diferentes de modelo: Ultra, Pro y Nano, Gemini 1.0 está diseñado para ser omnipresente como el resto de Google.

¿Qué es Google Géminis?

Google llama a Gemini "el modelo más capaz y general que jamás hayamos construido". Es el modelo backend. que impulsará la pila de productos de inteligencia artificial de Google, aunque la decisión de lanzar el modelo con tres tamaños.

  • Géminis Ultra — El modelo más grande y capaz de Google para tareas altamente complejas.
  • Géminis profesional — El mejor modelo de Google para escalar en una amplia gama de tareas.
  • Géminis Nano — El modelo más eficiente de Google para tareas en el dispositivo.

Algunas de las cifras de rendimiento promocionadas por Google para Gemini son bastante impresionantes, pero si he aprendido algo en tecnología, no confío en los puntos de referencia de los fabricantes. Dicho esto, es difícil cuestionar la efectividad de Géminis cuando se lo ve funcionar en vivo. @rowancheung en X (Twitter) publicó un vídeo mostrando a Géminis en acción y los resultados son nada menos que notables.

🚨 ÚLTIMA HORA: Google DeepMind acaba de revelar el mayor competidor de Gemini-ChatGPT. Gemini es la PRIMERA IA multimodal que supera a los expertos humanos en la MMLU, con una puntuación superior al 90 %. pic.twitter.com/A7It1hPKGQ6 de diciembre de 2023

Ver más

¿Cómo funciona Google Gemini?

Google promociona a Gemini como el mejor modelo de inteligencia artificial del planeta a través de los puntos de referencia que publicó. Si estos puntos de referencia soportan pruebas de terceros, Gemini será el líder del mercado, al menos hasta el lanzamiento de OpenAI. ChatGPT-5. La gran regla de la economía tal como está estructurada actualmente es que cuando las empresas compiten para tener el mejor producto, los consumidores suelen ganar.

Gemini debería impulsar a OpenAI para que continúe impulsando la innovación, pero obviamente, ha habido muchas preocupaciones sobre la investigación imprudente sin las consideraciones adecuadas de seguridad, incluso desde Directores ejecutivos como Satya Nadella comparan la IA con la energía atómica.

Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva de lenguajes multitarea), que utiliza un combinación de 57 materias como matemáticas, física, historia, derecho, medicina y ética para evaluar tanto el conocimiento mundial como la resolución de problemas habilidades.

Google

Google Gemini superó a ChatGPT-4V en la mayoría de los puntos de referencia mostrados por Google. A veces por más del 4% de puntos. El punto de referencia con el nombre más interesante del grupo, HellaSwag, fue el que Gemini tuvo un rendimiento inferior en comparación con ChatGPT-4V. Eche un vistazo a la lista completa de puntos de referencia.

Desliza para desplazarte horizontalmente
Capacidad Punto de referencia Descripción Géminis Ultra GPT-4V
General MMLU Representación de preguntas en 57 temas (incl. STEM, humanidades y otros) 90,0% costo del beneficio@32* 86,4% 5 disparos* (reportado)
Razonamiento Gran banco duro Conjunto diverso de tareas desafiantes que requieren razonamiento de varios pasos 83,6% 3 tiros 83,1% 3 disparos (API),
Fila 2 - Celda 0 GOTA Comprensión lectora (puntuación F1) 82.4 Tiros variables 80,9 3 disparos (reportado)
Fila 3 - Celda 0 HellaSwag Razonamiento de sentido común para las tareas cotidianas. 87,8% 10 disparos* 95,3% 10 disparos* (reportado)
Matemáticas GSM8K Manipulaciones aritméticas básicas (incl. problemas de matemáticas de la escuela primaria) 94,4% may1@32 92,0% CoT de 5 disparos (reportado)
Fila 5 - Celda 0 MATEMÁTICAS Problemas matemáticos desafiantes (incl. álgebra, geometría, precálculo y otros) 53,2% 4 tiros 52,9% 4 disparos (API)
Código evaluación humana Generación de código Python 74,4% 0 disparos (IT)* 67,0% 0 disparos* (reportado)
Fila 7 - Celda 0 Código Natural2 Generación de código Python. Nuevo conjunto de datos similar a HumanEval, no filtrado en la web 74,9% 0 tiros 73,9% 0 disparos (API)
Fila 8 - Celda 0 Fila 8 - Celda 1 Fila 8 - Celda 2 Fila 8 - Celda 3 Fila 8 - Celda 4

Si bien estos puntajes son impresionantes, probablemente no signifiquen mucho para el consumidor promedio. Que Google introduzca Gemini Nano en Pixel 8 Pro es más emocionante para mí, ya que es un modelo para tareas en el dispositivo. Muchos fabricantes están empezando a agregue capacidades de IA en el dispositivo, como TensorRT-LLM de NVIDIA a los dispositivos que fabrican. Para mí, esta es una perspectiva más emocionante para el futuro de la IA, donde podremos tener verdaderos asistentes personales integrados en nuestros teléfonos y personalizar nuestro modelo de IA para que funcione mejor según nuestras necesidades individuales.

Una de las mejores aplicaciones futuras, y probablemente posibles, para estas IA de LLM es algo con lo que todos hemos soñado desde Star Trek hace más de 80 años. Un traductor de idiomas universal. ChatGPT ya puede actuar como traductor, pero hay un tiempo de procesamiento bastante largo para generar las traducciones. Están ahora Modelos de IA que pueden traducir la actuación de voz a otro idioma, manteniendo intacta la voz del actor original.. Soy un gran fanático del anime, así como de los dramas japoneses y coreanos, me encantaría un mundo donde pudiera Presiono un botón en mi televisor y escucho la voz de los actores originales, pero solo la escucho en inglés en tiempo real. A medida que estas megacorporaciones compiten para superarse entre sí en el avance de la IA, esta realidad se acerca cada vez más.