IA de Google Genera Miles de Respuestas Incorrectas. La AutopsIA

La Persistencia de Alucinaciones en Modelos de Búsqueda que Erosionan la Confianza en la Información

El Hallazgo

Los AI Overviews son una función de Gemini especializada en generar resúmenes sobre distintos temas, ubicada en la parte superior de los resultados de Google. Su presencia a la hora de buscar información puede ser de gran ayuda: presenta datos de manera ordenada y concisa, así como también sugiere links relevantes. Sin embargo, sus respuestas no siempre son precisas o correctas, según revela un análisis de The New York Times.

Específicamente, una de cada diez respuestas de los AI Overviews es incorrecta. Millones de mentiras se difunden a diario en todo el mundo.

El Experimento

The New York Times realizó este análisis en conjunto con Oumi, una startup que se dedica al desarrollo de modelos de IA. El experimento comenzó el año pasado y consistió en el estudio de 4.326 búsquedas. En aquel entonces, Gemini 2.5 se presentaba como el mejor modelo de la compañía.

En la primera prueba, la tasa de precisión fue del 85%. Luego, con la actualización a Gemini 3, el resultado ascendió al 91%. No obstante, dado que Google procesa más de cinco billones de búsquedas al año, las imprecisiones pueden ser cientos de miles por minuto.

Los Errores Concretos

Entre los casos más relevantes documentados en el informe figura uno que tiene al artista jamaiquino Bob Marley como protagonista. Cuando los investigadores consultaron a AI Overviews en qué año la casa del músico se convirtió en museo, la respuesta del sistema fue 1987. Sin embargo, el dato correcto es 1986, de acuerdo a una publicación del Daily Gleaner. Además, AI Overviews citó tres sitios con información confusa e imprecisa sobre el tema.

Otro ejemplo muestra que, cuando se le preguntó al modelo en qué fecha el violonchelista Yo-Yo Ma fue incluido en el Salón de la Fama de la Música Clásica, el sistema negó la existencia de la institución. La respuesta fue: Según los registros disponibles, no existe una única institución conocida como el Salón de la Fama de la Música Clásica a la que Yo-Yo Ma haya sido incorporado en un año específico. El modelo incluyó junto a ese texto el propio sitio de la organización.

La Posición de Google

Desde Google reconocieron las fallas de sus modelos. La compañía aclara debajo de cada resumen que la IA puede cometer errores. Sin embargo, también indicaron que el análisis de Oumi es erróneo, ya que se basó en una prueba de referencia creada por OpenAI y contenía información incorrecta. Ned Adriance, portavoz de Google, señaló que el estudio tiene fallas importantes y que no refleja lo que la gente realmente busca en Google.

Pratik Verma, director ejecutivo de Okahu, firma que ayuda a las personas a utilizar nuevas tecnologías, sostuvo que, si bien la IA de Google tiende a ser precisa, es fundamental verificar la información: Nunca confíes en una sola fuente. Siempre compara lo que obtienes con otra fuente.

Por Qué las Alucinaciones Son Imposibles de Eliminar

Sergio Sirotinsky, profesor de IA en la Universidad del CEMA, reflexionó sobre el impacto de las alucinaciones en la sociedad: En tareas creativas, como brainstorming, redacción o generación de ideas, un pequeño margen de imaginación o creatividad puede aportar valor. El problema aparece cuando trasladamos esa misma lógica a ámbitos donde el error tiene consecuencias importantes, como salud, derecho, finanzas o información periodística.

Sirotinsky añadió que, si bien la IA representa uno de los mayores saltos de productividad que vimos en décadas, también trae consigo un costo: la posibilidad de error. Según los expertos consultados por La Nacion, eliminar por completo las alucinaciones de los modelos de IA es un objetivo prácticamente imposible. La razón está en su arquitectura actual.

Fredi Vivas, CEO de RockingData, profesor e ingeniero especializado en IA, lo explicó así: Los modelos de lenguaje tienen una arquitectura que se llama transformer, que es un motor de predicciones de tokens. Entonces, en lugar de ir a buscar una base de datos con hechos concretos verificados, que eso no existe, el modelo lo que hace es predecir el siguiente token basándose en probabilidad estadística. Fueron entrenados de esa manera, para predecir lo siguiente.

Vivas agregó que, mientras el objetivo sea predecir el texto probable, siempre habrá un margen de error: El modelo está hecho para priorizar la fluidez y la coherencia, y no la verdad factual. Sirotinsky sumó que no se trata de una mentira deliberada, sino de una limitación técnica propia del funcionamiento del modelo.

Las Técnicas para Mitigar el Problema

Ambos expertos remarcan la importancia de incorporar técnicas para reducir las imprecisiones. Algunas de ellas son la Retrieval-Augmented Generation (RAG), que consiste en conectar el modelo a fuentes externas verificadas; el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), basado en la calificación humana de respuestas; y la verificación post-generación, donde el sistema comprueba sus propias salidas.

Sirotinsky subrayó que la clave no es perseguir una perfección teórica que hoy no parece alcanzable, sino construir una IA confiable, auditable y con supervisión humana, especialmente en los casos de uso de alto impacto. Vivas prevé que, en un futuro, los modelos de IA evolucionarán y tendrán un mejor funcionamiento: La IA no será como la conocemos hoy.

Alfabetización Digital

Sirotinsky consideró que la defensa contra las alucinaciones no solo debe darse en materia tecnológica, sino también educativa: Es fundamental capacitar a las personas no solo para usar estas herramientas, sino para hacerlo de manera crítica y responsable. Entender cómo funcionan, por qué pueden equivocarse y en qué contextos requieren verificación humana es parte de las nuevas competencias digitales que la sociedad necesita desarrollar.

En este escenario, la responsabilidad sobre la validación y el criterio final humano serán esenciales. El problema no es solo que la IA se equivoque, sino la velocidad con la que una respuesta errónea puede escalar cuando el usuario la asume como verdad sin contrastarla, concluyó.

Google AI Overviews Genera Miles de Respuestas Incorrectas por Minuto