Construyendo NER bilingüe para logística de carga con Amazon Bedrock

El sistema Cargo de IBS Software procesa diariamente miles de mensajes de correo electrónico bilingües sobre logística de carga. El sistema extrae información crítica como números de guía aérea (AWB), detalles de vuelo, pesos e instrucciones de entrega tanto en inglés como en japonés. Esto se sumó a la complejidad de crear una solución sólida de reconocimiento de entidades nombradas (NER). Los desafíos incluyeron la intervención manual que ralentizó las operaciones y un equilibrio entre precisión y costo. IBS Software necesitaba una solución de IA que pudiera identificar con precisión 23 tipos de entidades diferentes en dos idiomas y al mismo tiempo seguir siendo rentable a escala.

Después de explorar múltiples enfoques, IBS Software utilizó las capacidades de destilación administrada de Amazon Bedrock para crear una solución lista para producción. Al fusionar el conocimiento de Amazon Nova Pro en el modelo más eficiente de Amazon Nova Lite, IBS Software logró una precisión de puntuación F1 del 95,085 por ciento y, al mismo tiempo, redujo los costos operativos en 14 veces. Este estudio de caso detalla su recorrido desde que enfrentaron implementaciones complejas de código abierto hasta una implementación exitosa en AWS que ahora procesa mensajes de correo electrónico de carga en tiempo real.

En esta publicación, compartimos el enfoque técnico que utiliza la destilación basada en tokens, las lecciones aprendidas y la arquitectura de implementación. Si enfrenta desafíos NER bilingües similares, puede beneficiarse de la experiencia de IBS Software con las capacidades de destilación de conocimientos de Amazon Bedrock.

Descripción general de la solución

El objetivo era construir un sistema NER bilingüe capaz de extraer 23 tipos de entidades de mensajes de correo electrónico de logística de carga escritos en inglés y japonés. Las entidades clave incluyen:

Números AWB (Guía de porte aéreo). Números de vuelos y rutas. Pesos (brutos, cargables, dimensionales). Dimensiones y volumen. Descripciones de productos básicos. Información del remitente y destinatario. Códigos de manejo especiales. Instrucciones de entrega.

Los principales riesgos incluían mantener una alta precisión en ambos idiomas, gestionar los costos de inferencia a escala y lograr una baja latencia para el procesamiento en tiempo real. Con las capacidades de destilación de modelos de Amazon Bedrock, puede utilizar modelos más pequeños, más rápidos y más rentables. Estos modelos ofrecen una precisión para su caso de uso comparable a los modelos más avanzados de Amazon Bedrock.

El siguiente diagrama muestra el flujo de trabajo NER bilingüe de un extremo a otro en Amazon Bedrock.

Figura 1: Flujo de trabajo NER bilingüe de extremo a extremo en Amazon Bedrock

Solución

El equipo de nueve investigadores e ingenieros de IBS pasó aproximadamente 4 meses desarrollando e implementando esta solución. El cronograma del proyecto incluía:

Mes 1: Preparación del conjunto de datos y anotación de 500 mensajes de correo electrónico bilingües. Mes 2: Desafíos con frameworks de código abierto (PyTorch, TextBrewer). Mes 3: Destilación exitosa usando Amazon Bedrock (Nova Pro → Nova Lite). Mes 4: Despliegue y optimización de la producción.

Tareas clave completadas:

Se anotaron 500 mensajes de correo electrónico de carga (350 en inglés, 150 en japonés) con 23 tipos de entidades. Destilación de Amazon Bedrock configurada con hiperparámetros personalizados. Modelo de estudiante entrenado durante 4 épocas en 70 pasos. Se logró una reducción de pérdidas de 0,05 a 0,008. Se implementó un punto final de inferencia con canalización de procesamiento de archivos .eml. Puntuación F1 validada del 95,085 por ciento en el conjunto de prueba.

IBS Software implementó toda la infraestructura utilizando los servicios administrados de Amazon Bedrock, lo que evitó la necesidad de una infraestructura de hospedaje de modelo personalizado.

Desafíos con los enfoques de código abierto

Inicialmente, el equipo intentó destilar conocimientos utilizando marcos de código abierto, incluidas implementaciones basadas en PyTorch y la biblioteca TextBrewer. Estos enfoques fracasaron debido a:

Complejidad en la configuración de tuberías de destilación para datos bilingües. Falta de infraestructura gestionada para la formación y el despliegue. Dificultad para ajustar los hiperparámetros para la destilación a nivel de token. Incompatibilidad con nuestro flujo de trabajo de procesamiento de correo electrónico de producción.

Para obtener más detalles sobre los fundamentos de la destilación de conocimientos, consulte Prácticas recomendadas de aprendizaje automático de AWS.

Enfoque de destilación de Amazon Bedrock

Pasamos a Amazon Bedrock Model Distillation, utilizando Amazon Nova Pro como modelo de profesor y Nova Lite como modelo de estudiante. Las ventajas clave incluyeron:

Infraestructura de formación gestionada con optimización automática de hiperparámetros. Soporte nativo para destilación a nivel de token. Facilidad de integración con nuestro proceso de procesamiento de correo electrónico. Métricas integradas de seguimiento y evaluación.

Configuración de entrenamiento:

distillation_config = { “teacher_model”: “amazon.nova-pro-v1:0”, “student_model”: “amazon.nova-lite-v1:0”, “max_sequence_length”: 2048, “epochs”: 4, “training_steps”: 70, “loss_function”: “token_level_kl_divergence” }

El proceso de formación redujo la pérdida de 0,05 a 0,008 en 70 pasos, lo que indica una fuerte transferencia de conocimientos de profesor a alumno.

Para obtener documentación sobre la destilación de Amazon Bedrock, consulte Personalizar un modelo con destilación en Amazon Bedrock.

Preparación del conjunto de datos

Nuestro conjunto de datos constaba de 500 mensajes de correo electrónico de logística de carga del mundo real:

350 mensajes de correo electrónico en inglés: documentación de carga estándar con números AWB, detalles de vuelo, pesos e instrucciones de manejo. 150 mensajes de correo electrónico japoneses: contenido similar con formato y terminología específicos de japonés.

Cada mensaje de correo electrónico fue anotado manualmente para 23 tipos de entidades por expertos en el dominio familiarizados con la terminología de logística de carga. El proceso de anotación duró aproximadamente 3 semanas y proporcionó datos de capacitación de alta calidad para ambos idiomas.

Evaluación del modelo

Evaluamos modelos tanto de profesores como de alumnos utilizando F1-Score, la media armónica de precisión y recuperación:

Resultados:

Aunque el modelo Nova Lite básico ofreció aproximadamente un 84 por ciento de puntuación F1 general, el modelo para profesores y el modelo Nova Lite personalizado lograron un aumento de aproximadamente el 10 por ciento en precisión. La siguiente tabla muestra los resultados de F1-Score.

Modelo Puntaje F1 general Inglés Puntaje F1 Japonés Puntaje F1 Nova Pro (Profesor) 97,0% 97,8% 96,2% Nova Lite (Estudiante) 95,085% 96,535% 93,635%

El modelo destilado Nova Lite retuvo el 98 por ciento del desempeño del maestro y al mismo tiempo proporcionó una reducción de costos 14 veces mayor en la inferencia de producción.

Análisis de errores y desafíos.

Observamos que el modelo de estudiante mostró una puntuación F1 un 2,565 por ciento más baja en textos en japonés que en textos en inglés. Esta brecha se debió principalmente a combinaciones complejas de caracteres kanji en las descripciones de productos básicos, límites de entidades ambiguos en el texto japonés sin espacios y el menor volumen de datos de capacitación en japonés (150 en comparación con 350 mensajes de correo electrónico). Las instrucciones de entrega de varias líneas con entidades integradas también provocaban ocasionalmente errores de detección de límites.

Para superar estos desafíos, aumentamos los datos de entrenamiento japoneses con ejemplos sintéticos. También aplicamos reglas de posprocesamiento para patrones de entidades conocidas (formato AWB, expresión regular de número de vuelo) e implementamos umbrales de confianza para señalar predicciones de baja confianza para la revisión humana.

Flujo de trabajo de implementación

Nota: La siguiente implementación crea recursos de AWS que generan cargos. El almacenamiento de Amazon Simple Storage Service (Amazon S3), las invocaciones de AWS Lambda, la inferencia de modelos de Amazon Bedrock y el almacenamiento de Amazon DynamoDB tienen costos asociados. Elimine estos recursos cuando ya no los necesite para evitar cargos continuos.

Nuestra implementación de producción procesa archivos .eml a través del siguiente flujo de trabajo:

Ingestión de correo electrónico: los mensajes de correo electrónico de carga llegan como archivos .eml a Amazon S3. Preprocesamiento: AWS Lambda extrae el cuerpo y los metadatos del correo electrónico. Inferencia: El punto final de Amazon Bedrock procesa texto con el modelo Nova Lite destilado. Extracción de entidades: el modelo devuelve 23 tipos de entidades con puntuaciones de confianza. Postprocesamiento: Se aplican reglas de validación y filtrado de confianza. Salida: JSON estructurado con entidades extraídas almacenadas en Amazon DynamoDB.

importar boto3 importar json bedrock_runtime = boto3.client(‘bedrock-runtime’) def extract_entities(email_text): respuesta = bedrock_runtime.invoke_model( modelId=”, body=json.dumps({ “inputText”: email_text, “taskType”: “NER”, “entityTypes”: [
“AWB_NUMBER”, “FLIGHT_NUMBER”, “WEIGHT_GROSS”,
“WEIGHT_CHARGEABLE”, “DIMENSIONS”, “COMMODITY”,
“SHIPPER”, “CONSIGNEE”, “HANDLING_CODE”,
# … 14 more entity types
]
}) ) resultado = json.loads(respuesta[‘body’].read()) devolver resultado[‘entities’]

Para conocer los patrones de integración de Lambda, consulte AWS Lambda con Amazon Bedrock.

Todo el proceso procesa mensajes de correo electrónico en menos de 2 segundos con una precisión del 95,085 por ciento, cumpliendo con nuestros requisitos de procesamiento en tiempo real.

Conclusión

En esta publicación, mostramos cómo IBS Software utilizó las capacidades de destilación administrada de Amazon Bedrock para construir un sistema NER bilingüe rentable para la logística de carga. El sistema logra un puntaje F1 del 95,085 por ciento y reduce los costos operativos en 14 veces. El modelo Nova Lite destilado conserva el 98 por ciento del rendimiento del modelo docente, lo que lo hace ideal para cargas de trabajo de producción de gran volumen.

Nuestra conclusión clave fue que las capacidades de destilación administradas de Amazon Bedrock aliviaron la complejidad de los marcos de código abierto. La destilación del conocimiento a nivel de token mantuvo la precisión tanto en inglés como en japonés, y la longitud de la secuencia de 2048 tokens se adaptó a las longitudes típicas de los correos electrónicos de carga. La implementación de producción con integración de AWS Lambda y Amazon S3 requirió una infraestructura personalizada mínima.

Próximos pasos:

Si enfrenta desafíos NER bilingües similares, considere:

Comience con los modelos básicos bajo demanda de Amazon Bedrock para crear prototipos rápidamente. Invierta en anotaciones de datos de capacitación bilingües de alta calidad. Explore la destilación de modelos con el conjunto de datos de entrenamiento. Una limitación de la destilación de modelos es que el modelo de profesor y el modelo de estudiante deben estar dentro de la misma familia de modelos.

Para obtener más información sobre los temas tratados en esta publicación, consulte los siguientes recursos:

Si está trabajando en NER bilingüe o en la destilación de conocimientos para su propio caso de uso, nos encantaría conocer su experiencia. Comparta sus preguntas o comentarios en los comentarios.

Sobre los autores

Manu Raj LS

Manu es consultor principal de ciencia de datos en IBS Software.

Joshwin Lal Tennyson JS

Joshwin es ingeniero líder de inteligencia artificial en IBS Software.

Basilio K.

Basil es arquitecto líder de productos en IBS Software.

Madhukiran J

Madhukiran es gerente técnico de cuentas sénior en AWS Enterprise Support. Apoya a los clientes empresariales a aprovechar los servicios de AWS como Bedrock, AgentCore y SageMaker para crear soluciones innovadoras. Su experiencia abarca aprendizaje automático, GenAI y contenedores (Amazon EKS, Amazon ECS)