OpenAI lanza filtro de privacidad: un modelo de redacción de PII de código abierto de 1,500 millones de parámetros con 50 millones de parámetros activos

OpenAI simplemente dejó caer silenciosamente algo a lo que vale la pena prestarle mucha atención. Lanzado en Hugging Face bajo una licencia Apache 2.0, Privacy Filter es un modelo de clasificación de tokens bidireccional y abierto diseñado específicamente para detectar y redactar información de identificación personal (PII) en texto. Es lo suficientemente pequeño como para ejecutarse en un navegador web o en una computadora portátil y lo suficientemente rápido para procesos de desinfección de datos de alto rendimiento.

Qué hace

El filtro de privacidad es un modelo de reconocimiento de entidades nombradas (NER), pero está diseñado específicamente para el caso de uso de privacidad. Detecta ocho categorías de intervalos confidenciales: número_de_cuenta, dirección_privada, correo electrónico_privado, persona_privada, teléfono_privado, URL_privada, fecha_privada y secreto. La categoría secreta cubre formatos de credenciales, patrones de tokens específicos del proyecto y cadenas de alta entropía: la tarjeta modelo menciona explícitamente la detección perdida de “formatos de credenciales novedosos” y “secretos divididos en la sintaxis circundante” como modos de falla conocidos, lo que indica a qué está entrenada la categoría.

El caso de uso previsto es claro: equipos de desarrollo que necesitan limpiar conjuntos de datos, borrar registros o preprocesar contenido generado por el usuario antes de que ingrese a un proceso de capacitación o se almacene en un almacén de datos. Debido a que se ejecuta en las instalaciones y en hardware básico, encaja perfectamente en el creciente conjunto de herramientas de IA implementables en el borde que las organizaciones pueden adoptar sin enrutar datos confidenciales a una API de terceros.

La arquitectura es la verdadera historia

El filtro de privacidad tiene 1.500 millones de parámetros totales, pero solo 50 millones de parámetros activos en el momento de la inferencia. Esa brecha, que es aproximadamente 30 veces mayor, se explica en su totalidad por el escaso diseño de avance de combinación de expertos (MoE) del modelo.

Arquitectónicamente, el modelo es “similar a gpt-oss, aunque de menor tamaño”. Está construido sobre 8 bloques de transformadores prenormativos con un ancho de flujo residual (d_model) de 640. La atención utiliza atención de consultas agrupadas (GQA) con incrustaciones posicionales rotativas (RoPE): 14 cabezales de consulta en 2 cabezales KV, lo que significa que 7 cabezales de consulta comparten cada cabezal KV, lo que reduce significativamente la huella de memoria de la caché de valores-clave en comparación con la atención estándar de múltiples cabezales. RoPE es también lo que habilita la ventana de contexto de 128.000 tokens del modelo. Las capas de retroalimentación utilizan MoE escaso con 128 expertos en total y los 4 principales enrutamientos por token: para cada token, 4 de los 128 expertos se activan y todos los demás parámetros de expertos permanecen inactivos. Este es exactamente el mecanismo que produce una brecha de 30x entre el recuento de parámetros totales y activos.

Un canal de capacitación de tres fases

Lo que hace que este modelo sea arquitectónicamente inusual no es sólo su tamaño, sino también cómo fue construido. Privacy Filter se produjo en tres fases distintas.

En primer lugar, se preentrenó de forma autorregresiva como un modelo de lenguaje de predicción del siguiente token estándar, en la tradición de los decodificadores de estilo GPT. En segundo lugar, ese punto de control se convirtió arquitectónicamente: el encabezado del modelo de lenguaje se reemplazó con un encabezado de clasificación de tokens sobre la taxonomía de la etiqueta de privacidad, y el mecanismo de atención se cambió de atención causal (unidireccional) a atención en bandas bidireccional con un tamaño de banda de 128, dando a cada token una ventana de contexto efectiva de 257 tokens (el token en sí más 128 en cada lado). En tercer lugar, el modelo convertido se entrenó posteriormente con una pérdida de clasificación supervisada: una fase de ajuste distinta que utiliza datos PII etiquetados, separada del paso de conversión arquitectónica.

El preentrenamiento autorregresivo proporciona al modelo representaciones de lenguaje ricas aprendidas a partir de muchos más datos y cálculos de los que soportaría cualquier presupuesto específico de una tarea. La conversión arquitectónica permite el contexto bidireccional, lo cual es esencial para NER: un nombre como ‘Alice’ en ‘Alice Smith llamada’ no es ambiguo, pero con solo el contexto izquierdo podría pasarse por alto. Luego, la capacitación posterior supervisada especializa esas representaciones para la tarea de detección de privacidad.

En comparación con los enfoques clásicos de modelos de lenguaje enmascarado como BERT, esta es una conversión posterior al entrenamiento de un modelo autorregresivo en lugar de una configuración nativa de LM enmascarado, una distinción significativa en cómo se formaron las representaciones base.

Decodificación restringida de Viterbi en lugar de Argmax

El esquema de etiquetas que utiliza el filtro de privacidad es BIOES: inicio, interior, exterior, final, único. Cada una de las 8 categorías de privacidad obtiene cuatro clases de tokens etiquetados con límites (B-, I-, E-, S-) más la clase de fondo O, lo que produce un total de 33 clases de salida por token. Para una secuencia de longitud T, los logits de salida tienen forma [T, 33].

En lugar de tomar un argmax por token sobre esos 33 logits, lo que podría producir secuencias de etiquetas incoherentes como B- seguida inmediatamente de S-, el modelo ejecuta un decodificador de Viterbi restringido en el momento de la inferencia. El decodificador utiliza puntuación de transición de cadena lineal y aplica transiciones de límites BIOES válidas. Califica rutas de etiquetas completas utilizando términos de inicio, transición y fin, junto con seis parámetros de sesgo de transición que controlan específicamente: persistencia de fondo, entrada de tramo, continuación de tramo, cierre de tramo y transferencia de límite a límite. Esta optimización de ruta global mejora la coherencia del intervalo y la estabilidad de los límites al hacer que cada decisión de token dependa de la estructura a nivel de secuencia, no solo de los logits locales, lo cual es particularmente valioso en texto ruidoso o de formato mixto.

Esos seis parámetros de polarización de transición también son ajustables por el usuario en tiempo de ejecución. Esto lleva a los desarrolladores de IA a impulsar un enmascaramiento más amplio y contiguo para mejorar la recuperación, o a ajustar los límites para mejorar la precisión, sin volver a entrenar el modelo.

Conclusiones clave

OpenAI lanzó Privacy Filter, un modelo de redacción de PII de código abierto bajo Apache 2.0, capaz de detectar ocho categorías sensibles que incluyen número_de_cuenta, persona_privada, secreto y más, implementable localmente sin enrutar datos a una API externa. El modelo tiene 1,5 mil millones de parámetros totales, pero solo 50 millones activos en la inferencia, gracias a un diseño de retroalimentación MoE escaso con 128 expertos y enrutamiento de los 4 principales por token, lo que lo hace lo suficientemente liviano como para ejecutarse en un navegador o en una computadora portátil. La columna vertebral es arquitectónicamente similar a gpt-oss: 8 bloques transformadores prenormativos, d_model=640, atención de consultas agrupadas con RoPE y un MoE FFN escaso: primero preentrenado de forma autorregresiva, luego convertido a un codificador de atención con bandas bidireccional y luego posentrenado con una pérdida de clasificación supervisada. En inferencia, ejecuta decodificación Viterbi restringida sobre un esquema de etiquetas BIOES en lugar de argmax por token, lo que produce límites de intervalo coherentes con seis parámetros de sesgo de transición ajustables que permiten a los ingenieros ajustar la compensación precisión/recuperación en tiempo de ejecución sin necesidad de volver a capacitarse.

Consulte los pesos del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros