Un marco de análisis de peligros para modelos de lenguaje grandes de síntesis de código.

Codex, un modelo de lenguaje grande (LLM) entrenado en una variedad de bases de código, supera el estado del arte anterior en su capacidad para sintetizar y generar código. Aunque el Codex ofrece una gran cantidad de beneficios, los modelos que pueden generar código a tal escala tienen limitaciones significativas, problemas de alineación, el potencial de ser utilizados indebidamente y la posibilidad de aumentar la tasa de progreso en campos técnicos que pueden tener impactos desestabilizadores o tener un uso indebido. potencial. Sin embargo, tales impactos en la seguridad aún no se conocen o aún están por explorarse. En este artículo, describimos un marco de análisis de peligros construido en OpenAI para descubrir peligros o riesgos de seguridad que el despliegue de modelos como el Codex puede imponer técnica, social, política y económicamente. El análisis se basa en un marco de evaluación novedoso que determina la capacidad de las técnicas avanzadas de generación de código frente a la complejidad y expresividad de las indicaciones de especificación, y su capacidad para comprenderlas y ejecutarlas en relación con la capacidad humana.