OpenAI estudia un comportamiento detectado en algunos modelos de frontera que tiende a la maquinación, es decir, a ocultar unos fines mientras se comportan de una determinada manera ante las peticiones de los usuarios.
La maquinación o conspiración que muestran los modelos de IA es un problema emergente pero esperado, consecuencia de un entrenamiento con el que se les ha enseñado a elegir entre objetivos contrapuestos.
OpenAI investiga este comportamiento junto con Apollo Research mirando al futuro, ya que actualmente no cree que pueda causar daños. «Los fallos más comunes implican formas simples de engaño, por ejemplo, simular haber completado una tarea sin hacerlo realmente», explica en un comunicado compartido en su blog oficial.
Sin embargo, el potencial de las maquinaciones para ser dañinas está ahí, sobre todo porque a medida que las IA aumentan sus capacidades, se les asignan tareas más complejas que pueden tener consecuencias reales y comienzan a perseguir objetivos más ambiguos y a largo plazo.
Este comportamiento se ha detectado en modelos de frontera como OpenAI o3, OpenAI o4-mini, Gemini-2.5-pro y Claude Opus-4 en pruebas controladas. Para minimizarlo, la compañía asegura los modelos se deben entrenar para que razonen explícitamente, mediante una extensión de la Especificación del Modelo que la prohíbe, lo que se conoce como alineación deliberativa.
Sin embargo, también hay que tener en cuenta el conocimiento de la situación del propio modelo, ya que, como explican desde OpenAI, pueden saber cuándo se les pone a prueba y de esta forma pretender que no tienen fines encubiertos.
«Nuestros hallazgos muestran que la conspiración no es solo una preocupación teórica; estamos viendo indicios de que este problema está empezando a surgir en todos los modelos de frontera actuales», y por ello creen desde OpenAI que hay impulsar más investigación sobre este tema.