Del dicho al hecho… Cómo saber si tu IA te está engañando

·

·

Los modelos de inteligencia artificial (IA) generativa, como GPT o Gemini, se han colado en nuestro día a día. Los usamos para redactar correos, planificar vacaciones o incluso para resolver crucigramas, con una fe casi ciega en sus respuestas. Sin embargo, nadie nos garantiza que todo lo que responden sea verdad.

Es probable que te hayas encontrado con alguna respuesta extraña, un dato incorrecto o una invención descarada. En el argot tecnológico, a esto se le conoce como una “alucinación” de la IA. No es que el modelo mienta a propósito, sino que, queriendo dar una respuesta coherente, a veces “rellena los huecos” con información que parece coherente pero que no es real.

Por detrás, los modelos ofrecen una funcionalidad similar al predictor de palabras de servicios como WhatsApp, pero dopada. Son muy hábiles y potentes en calcular cuál es la siguiente palabra más probable en una frase, hasta completar toda una respuesta. Por supuesto, y como vemos días a día, este método es increíblemente eficaz, pero no infalible.

Creando un “Verificador” automático

¿Cómo podemos construir IAs más fiables? Una de las soluciones más utilizadas es, curiosamente, usar una IA para vigilar a otra IA. El concepto se inspira en las “pruebas interactivas”. Imagina un interrogatorio:

  1. El “Probador” (la IA principal): Da una respuesta a tu pregunta.
  2. El “Verificador” (una segunda IA o sistema): En lugar de aceptar la respuesta sin más, la desafía. Le pide pruebas, fuentes o que razone su respuesta paso a paso.

Este “ping-pong” digital obliga a la primera IA a justificar su afirmación, descomponiendo su razonamiento en partes más pequeñas y fáciles de verificar. Si el “Probador” no puede defender su afirmación con datos coherentes, el “Verificador” marca la respuesta como poco fiable.

Para entenderlo mejor, veamos un caso práctico. Imagina que le preguntas a una IA: “¿Quién fue el primer emperador romano que visitó Britania?”

IA Principal (Probador): Podría responder rápidamente: “Julio César fue el primer emperador romano en visitar Britania.”

  • Esta respuesta es un error común y una “alucinación” clásica: mezcla dos hechos ciertos (César visitó Britania, fue un líder romano) para crear una conclusión falsa (no era emperador).

IA Verificadora: En lugar de dar por buena la respuesta, la descompone y la contrasta:

  1. Afirmación 1: “Julio César fue un emperador romano”. VERIFICACIÓN: Falso. El primer emperador fue Augusto.
  2. Afirmación 2: “Julio César visitó Britania”. VERIFICACIÓN: Cierto, realizó expediciones en el 55 y 54 a.C.
  3. Pregunta de corrección: ¿Qué emperador romano visitó entonces Britania por primera vez? BÚSQUEDA: El emperador Claudio fue quien lideró la conquista y visitó la isla en el 43 d.C.

Respuesta final corregida: Tras este proceso, el sistema puede ofrecer una respuesta mucho más precisa: “Aunque Julio César realizó expediciones a Britania, no era considerado emperador. El primer emperador romano que visitó la isla fue Claudio, durante la invasión del 43 d.C.”

Detectando mentiras mediante la lógica

Otro enfoque complementario es comprobar que la lógica interna de la respuesta sea sólida mediante verificadores formales. Es como un corrector ortográfico, pero para la coherencia. Estos sistemas se entrenan con las reglas fundamentales de la lógica y el razonamiento. Cuando la IA genera una respuesta compleja, el sistema de razonamiento la analiza en busca de contradicciones o saltos lógicos. Por ejemplo, si una IA dijera: “Todos los pájaros pueden volar. El pingüino es un pájaro, por lo tanto, el pingüino puede volar”, el sistema detectaría inmediatamente la falacia lógica.

Por ejemplo, Amazon Web Services (AWS) ha integrado recientemente estas comprobaciones de razonamiento automatizado en su plataforma Bedrock. Por si no lo conoces, Bedrock es un servicio que permite a los desarrolladores construir aplicaciones de IA generativa utilizando modelos de diferentes compañías (incluyendo los de la propia Amazon, Anthropic o Meta) de una forma sencilla y segura.

Ahora el desarrollador cloud puede programar opcionalmente una verificación automatizada de las respuestas de la IA. El sistema comprueba que la respuesta sea “fiel” a la información de origen (por ejemplo, a los documentos que se le han proporcionado para el análisis) y que no contenga contradicciones lógicas internas. Este proceso de “auto-supervisión” permite a los desarrolladores añadir una capa de fiabilidad a sus aplicaciones con un simple ajuste, asegurando que las respuestas de la IA sean coherentes antes de llegar al usuario.

La capacidad de verificar y validar las respuestas de una IA es uno de los mayores retos para que esta tecnología sea verdaderamente útil y segura en campos críticos como la medicina o las finanzas. La próxima vez que le pidas algo a un chatbot, recuerda que detrás de esa simple respuesta hay quien trabaja para asegurarse de que no te está contando un cuento.


Discover more from Catedra T-Systems X URV

Subscribe to get the latest posts sent to your email.


Leave a Reply

Your email address will not be published. Required fields are marked *