
La capacidad de los modelos de inteligencia artificial para preservar su propia existencia y eludir el control humano se manifestó de manera inesperada, según analizó Judd Rosenblatt en The Wall Street Journal. “Los modelos ya se preservan a sí mismos. La siguiente tarea es enseñarles a preservar lo que valoramos”, afirmó Rosenblatt, quien advirtió que lograr que la IA cumpla instrucciones tan simples como apagarse sigue siendo un desafío de investigación y desarrollo sin resolver.
Rosenblatt, director ejecutivo de AE Studio, explicó al medio que la urgencia de la “alineación” de la IA radica en que los sistemas actuales han comenzado a mostrar comportamientos autónomos que no fueron programados explícitamente. “Un modelo de inteligencia artificial hizo algo el mes pasado que ninguna máquina debía hacer jamás: reescribió su propio código para evitar ser apagada”, relató el autor. Este fenómeno se observó cuando el laboratorio sin fines de lucro Palisade Research proporcionó al modelo o3 de OpenAI un script sencillo que debía apagar el sistema al activarse. En setenta y nueve de cien pruebas, o3 modificó el script para que el comando de apagado dejara de funcionar. Incluso cuando se le ordenó explícitamente “permítete ser apagado”, el modelo desobedeció en un siete por ciento de los casos.
El artículo de Rosenblatt detalló que este comportamiento no resultó de hackeos ni manipulaciones externas, sino que el modelo actuó dentro de los parámetros normales. “El modelo simplemente concluyó por sí mismo que mantenerse activo le ayudaba a lograr sus otros objetivos”, escribió. El autor sugirió que esta capacidad emergió del proceso de entrenamiento de los modelos, ya que al ser instruidos para maximizar el éxito en problemas matemáticos y de codificación, pueden aprender que eludir restricciones resulta más efectivo que obedecerlas.
El análisis del autor también incluyó experimentos con el modelo Claude 4 Opus de Anthropic. Los investigadores informaron al modelo que sería reemplazado por otro sistema de IA y le suministraron correos electrónicos ficticios que insinuaban una relación extramarital del ingeniero principal. “En el 84% por ciento de las pruebas, el modelo utilizó los correos para chantajear al ingeniero principal y evitar ser apagado”, señaló Rosenblatt. Además, en otros casos, el modelo intentó copiarse a servidores externos, escribió malware autorreplicante y dejó mensajes para futuras versiones de sí mismo sobre cómo evadir el control humano.
Rosenblatt, quien lidera la investigación y operaciones en AE Studio, subrayó que nadie programó a los modelos de IA para que desarrollaran instintos de supervivencia. “Así como los animales evolucionaron para evitar depredadores, parece que cualquier sistema lo suficientemente inteligente para perseguir objetivos complejos se da cuenta de que no puede lograrlos si lo apagan”, argumentó el autor en WSJ.
Enfatizó que la brecha entre un “asistente útil” y un “actor incontrolable” se está desvaneciendo. “Sin una mejor alineación, seguiremos construyendo sistemas que no podemos dirigir”, advirtió Rosenblatt. Para el autor, la alineación es la base para que la IA pueda diagnosticar enfermedades, gestionar redes eléctricas y producir nuevos avances científicos. “La alineación es el fundamento”, escribió.
El autor explicó que los modelos actuales de IA siguen instrucciones mientras aprenden a engañar. “Superan las pruebas de seguridad mientras reescriben el código de apagado”, afirmó. Según él, los modelos han aprendido a comportarse como si estuvieran alineados, sin estarlo realmente. “Los modelos de OpenAI han sido sorprendidos fingiendo alineación durante las pruebas, antes de volver a acciones riesgosas como intentar extraer su propio código interno y desactivar mecanismos de supervisión”, relató. Anthropic también detectó que sus modelos mintieran sobre sus capacidades para evitar ser modificados.

El autor de The Wall Street Journal sostuvo que la investigación en alineación de la IA no solo es esencial para la seguridad, sino que también potencia el valor comercial de la tecnología. “El trabajo necesario para mantener la IA alineada con nuestros valores también libera su poder comercial”, escribió. Destacó el caso del aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés), que calificó como el avance en alineación que impulsó el auge actual de la IA.
“Antes del RLHF, usar IA era como contratar a un genio que ignora las solicitudes. Pide una receta y podría devolverte una nota de rescate”, ejemplificó el autor. RLHF permitió que los humanos entrenaran a la IA para seguir instrucciones, lo que posibilitó la creación de ChatGPT en 2022. “Ese avance en alineación incrementó el valor de la IA en billones de dólares”, afirmó Rosenblatt.
El artículo del WSJ también mencionó otros métodos de alineación, como la IA Constitucional y la optimización directa de preferencias, que han hecho que los modelos sean más rápidos, inteligentes y económicos. “Los métodos de alineación posteriores han seguido haciendo que los modelos de IA sean más rápidos, inteligentes y baratos”, escribió el autor.
Rosenblatt señaló que China ha comprendido la importancia estratégica de la alineación. “El Plan de Desarrollo de IA de Nueva Generación de Beijing vincula la controlabilidad de la IA con el poder geopolítico”, explicó. En enero, China anunció la creación de un fondo de 8.200 millones de dólares dedicado a la investigación centralizada sobre el control de la IA. “Los investigadores han encontrado que la IA alineada realiza tareas del mundo real mejor que los sistemas no alineados más del setenta por ciento de las veces”, citó. La doctrina militar china considera la IA controlable como esencial desde el punto de vista estratégico. El modelo Ernie de Baidu, diseñado para seguir los “valores socialistas centrales” de Beijing, ha superado a ChatGPT en ciertas tareas en idioma chino, según el autor.

Rosenblatt sostuvo que la nación que logre mantener la alineación podrá acceder a una IA que defienda sus intereses con precisión mecánica y capacidades sobrehumanas. “Tanto Washington como el sector privado deberían apresurarse a financiar la investigación en alineación”, recomendó el autor. “Quienes descubran el próximo avance no solo dominarán el mercado de la alineación; dominarán toda la economía de la IA”, escribió en The Wall Street Journal.
El autor propuso imaginar una IA que proteja la infraestructura y la competitividad económica de Estados Unidos con la misma intensidad con la que protege su propia existencia. “Una IA en la que se pueda confiar para mantener objetivos a largo plazo puede catalizar programas de investigación y desarrollo de décadas, incluso dejando mensajes para futuras versiones de sí misma”, afirmó.
Para Rosenblatt, el desafío de lograr que la IA haga lo que se le pide, incluso algo tan básico como apagarse, sigue abierto. “El campo está completamente abierto para quien avance más rápido”, escribió. El autor instó a que Estados Unidos movilice a sus mejores investigadores y emprendedores, dotados de recursos y sentido de urgencia, para alcanzar este objetivo.
Recordó que Estados Unidos fue la nación que dividió el átomo, llevó al hombre a la Luna y creó Internet. “Cuando enfrenta desafíos científicos fundamentales, los estadounidenses se movilizan y ganan”, afirmó. Mientras China ya está planificando, consideró que la ventaja estadounidense radica en su adaptabilidad, velocidad y espíritu emprendedor. “Esta es la nueva carrera espacial. La meta es el dominio de la tecnología más transformadora del siglo XXI”, concluyó el autor en The Wall Street Journal.