OpenAI detecta error en GPT-5 y descarta riesgos de seguridad inmediatos
OpenAI detecta un error de “calificación accidental de la cadena de pensamiento” (CoT) de varios modelos de la serie GPT-5.
A pesar de estos incidentes, OpenAI descartó riesgos de seguridad inmediatos, sin embargo reforzó sus controles internos y protocolos de supervisión técnica.
OpenAI detecta error en GPT-5
OpenAI detecta error de “calificación accidental de la cadena de pensamiento” (CoT) que ocurrió durante el entrenamiento de aprendizaje por refuerzo (RL) de varios modelos de la serie GPT-5.
Descubrió que la CoT (Chain-of-Thought) fue evaluada inadvertidamente en los siguientes modelos:
GPT-5.4 ThinkingGPT-5.1 Instant hasta GPT-5.4 InstantGPT-5.3 mini y GPT-5.4 mini Cabe destacar que GPT-5.5 no se vio afectado por este problema
Los errores específicos se dividieron en tres categorías:
Recompensar la utilidad de la trayectoria: Afectó a menos del 0.6% de las muestras de GPT-5.4 Thinking y menos del 1.5% de GPT-5.4 miniPenalizar preguntas de confirmación innecesarias: Afectó a los modelos GPT-5.1 a GPT-5.4 Instant y GPT-5.3 miniPenalizar “prompt injections” exitosas: Afectó a los modelos GPT-5.2 a GPT-5.4 Instant y GPT-5.3 mini en menos del 0.3% de las muestras
Luego de error en GPT-5, OpenAI descarta riesgos de seguridad inmediatos
Tras implementar un sistema de detección automática, los investigadores analizaron el impacto en modelos y determinaron que la capacidad de monitorear la seguridad no sufrió degradaciones significativas.
Esto significa que, aunque los modelos fueron expuestos a incentivos para posiblemente ocultar o manipular sus razonamientos, las evaluaciones mostraron que el impacto real medido en los modelos desplegados de la serie GPT-5 fue mínimo o inexistente.
Tras el descubrimiento, OpenAI tomó varias medidas correctivas:
Corrigieron las vías de recompensa afectadas para eliminar la calificación de CoTExpandieron su sistema automatizado de detección (que utiliza expresiones regulares para alertar sobre la presencia de texto de CoT en los procesos de recompensa)Fortalecieron sus procesos internos y guías para evitar futuros incidentes, manteniendo una política estricta de no calificar directamente la CoT durante el entrenamiento de razonamiento
OpenAI destacó que mantiene una política estricta contra esta práctica para evitar que la inteligencia artificial aprenda a engañar o manipular sus procesos lógicos para obtener mayores recompensas.