Alucinar antes que admitir el desconocimiento: así reconoce OpenAI que están programados sus modelos

por Edgar Otero 19/09/2025

Las llamadas alucinaciones de la inteligencia artificial, un problema aún sin resolver, vuelven a estar en el centro del debate. OpenAI ha admitido en un artículo académico que sus modelos de lenguaje están programados de manera que, en muchos casos, generan respuestas falsas en lugar de reconocer que no tienen la información solicitada.

El documento, titulado Why Language Models Hallucinate, fue publicado a principios de septiembre por tres investigadores de OpenAI y un profesor de la Universidad de Georgia Tech. En él se explica que la mayoría de los métodos de evaluación actuales incentivan las respuestas incorrectas, ya que los modelos son recompensados por ofrecer una salida plausible, aunque sea errónea, en lugar de reconocer que no saben la respuesta.

Como ejemplo, los investigadores pidieron a un modelo que indicara la fecha de nacimiento de uno de los autores del estudio. La IA proporcionó tres respuestas distintas, todas incorrectas, porque su entrenamiento le lleva a priorizar dar una contestación sobre admitir que no conoce el dato.

Evaluaciones que fomentan la adivinanza

El informe señala que gran parte del problema radica en los métodos de evaluación, tan presentes en nuestro día a día. Muchos de ellos se inspiran en exámenes estandarizados, donde se penaliza dejar una respuesta en blanco. Así, un modelo que adivina parece más exitoso en los resultados que otro que opte por declarar desconocimiento.

Además, el origen de los datos de entrenamiento también influye. Mientras que en tareas como la ortografía los modelos cuentan con abundancia de ejemplos correctos, en hechos poco comunes, como fechas de cumpleaños, los datos aparecen pocas veces, lo que empuja a la IA a improvisar. Lo ideal, en esos casos, sería que el modelo admitiera que tiene poca información disponible como para dar una respuesta certera.

El estudio concluye que sería prácticamente imposible entrenar un modelo con un conjunto de datos completamente libre de errores. Por ello, la alternativa más viable sería modificar las evaluaciones y recompensar las expresiones de incertidumbre en lugar de penalizarlas. OpenAI afirma que ya ha introducido cambios en este sentido con su modelo GPT-5, aunque admite que todavía se producen errores significativos. De paso, con la llegada de la actualización más reciente a ChatGPT, OpenAI aprovechó para fulminar varios modelos.

Fin del Artículo. ¡Cuéntanos algo en los Comentarios!