Google reconoce que los vídeos de Gemini, su nueva IA, estaban editados

La semana pasada Google anunció Gemini, una nueva inteligencia artificial multimodal que, según la compañía, supera a su competidor directo (GPT-4 de OpenAI) en muchas tareas y pruebas.

Gemini está disponible en tres versiones. Una muy básica para dispositivos móviles, Gemini Nano; otra más avanzada, Gemini Pro, y que sería equivalente a GPT-3.5, el motor de lenguaje que utiliza la conocida herramienta ChatGPT en su versión gratuita; y finalmente Gemini Ultra, que es la versión más compleja y avanzada y que llegará en 2024.

Gemini Nano ya ha llegado a los teléfonos Pixel 8 y Gemini Pro está funcionando en Bard, la alternativa de Google a ChatGPT pero para demostrar las capacidades de Gemini Ultra, Google mostró varios vídeos destacando sus capacidades multimodales (la capacidad de entender una combinación de texto, lenguaje hablado o imágenes y vídeo).

Los vídeos son francamente sorprendentes, demostrando que Gemini es capaz de entender problemas complejos que requieren de avanzadas capacidades de visión artificial para ser entendidos y habilidades de lógica para ser resueltos. Sin embargo, y como muchos expertos en inteligencia artificial sospecharon inmediatamente, han sido editados.

En uno de los vídeos, Gemini parece reaccionar a un dibujo que se hace en tiempo real de un pato. Conforme la persona dibuja, va explicando lo que ve, lo que cree que puede ser y, cuando está segura de que se trata de un pato, añade más contexto e información a la escena.

Pero el vídeo no se grabó en tiempo real y aunque Google asegura que las respuestas son auténticas, se generaron después de presentar a Gemini una imagen estática y preguntarle mediante texto su impresión de la escena.

Las respuestas de Gemini tampoco son tan inmediatas. "La latencia se ha reducido y las respuestas de Gemini se han acortado por brevedad", explica Google en la descripción de los vídeos. En una publicación en la web destinada a desarrolladores, la compañía ahonda en las preguntas e imágenes exactas que se usaron para crear el vídeo final.

La decisión de editar el vídeo ha sido criticada por muchos expertos y entusiastas de la inteligencia artificial. Creen que, en su afán por presentar Gemini Ultra como un producto más atractivo, Google está enturbiando una discusión importante sobre las capacidades reales del modelo de lenguaje, que según las pruebas realizadas suponen realmente un salto importante dentro del campo de la inteligencia artificial.

Gemini, al fin y al cabo, parece ser el primer modelo largo de lenguaje que ha superado a los humanos en la batería de pruebas MMLU, que incluye una amplia gama de preguntas complejas sobre temas que incluyen falacias lógicas, problemas morales, médicos, de economía, física o geografía. Es un avance sorprendente, sin duda, pero no tan sorprendente como da a entender el vídeo.