The Prompt Alchemist: optimización automatizada de avisos adaptada a LLM para la generación de casos de prueba

Debido a la llegada de la Inteligencia Artificial (IA), la industria del software ha estado aprovechando los Modelos de Lenguaje Grande (LLM) para completar código, depurar y generar casos de prueba. Sin embargo, los LLM siguen un enfoque genérico al desarrollar casos de prueba para un software diferente, lo que les impide considerar la arquitectura única del software, los requisitos del usuario y los posibles casos extremos. Además, se obtienen diferentes resultados del mismo mensaje cuando se utiliza otro software, lo que plantea la cuestión de la confiabilidad del mensaje. Debido a estos problemas, los errores críticos pueden pasar desapercibidos, lo que aumenta el gasto general y, en última instancia, dificulta la implementación práctica del software en industrias sensibles como la atención médica. Un equipo de investigadores de la Universidad China de Hong Kong, el Instituto de Tecnología de Harbin, la Escuela de Tecnología de la Información y algunos investigadores independientes han presentado MAPS, el alquimista rápido para optimizaciones personalizadas y comprensión contextual.

Los enfoques tradicionales de generación de casos de prueba se basan en sistemas basados en reglas o en la ingeniería manual de indicaciones para modelos de lenguaje grandes (LLM). Estos métodos han sido fundamentales en las pruebas de software, pero presentan varias limitaciones. La mayoría de los investigadores utilizan métodos manuales para optimizar la ingeniería rápida para la generación de casos de prueba, lo que requiere una importante inversión de tiempo. Estos métodos también son difíciles de escalar debido al aumento de la complejidad. Otros métodos suelen ser de naturaleza genérica y producen errores. Por lo tanto, se necesita un nuevo enfoque para la generación de casos de prueba que pueda evitar la optimización manual que requiere mucha mano de obra y no conduzca a resultados subóptimos.

El método propuesto, MAPS, automatiza el proceso de optimización rápida, alineando los casos de prueba con los requisitos del mundo real, reduciendo significativamente la intervención humana. El marco central de MAPS incluye:

Evaluación de indicaciones de referencia: los LLM se evalúan según su desempeño en casos de prueba generados utilizando indicaciones básicas. Esta evaluación es fundamental para realizar mayores esfuerzos de optimización necesarios.
Bucle de retroalimentación: según los resultados de la evaluación, los casos de prueba con un rendimiento subóptimo se dejan de lado y se modifican para alinearse mejor con los requisitos del software. Esta información se retroalimenta al LLM, lo que permite una mejora continua en un circuito de retroalimentación.
Ajuste específico de LLM: las técnicas de aprendizaje por refuerzo se utilizan para la optimización dinámica de mensajes. Esto abre un espacio para personalizaciones en el mensaje teniendo en cuenta las fortalezas y debilidades de los LLM.

Los resultados mostraron que MAPS superó significativamente las técnicas tradicionales de ingeniería rápida. Sus avisos optimizados tenían una tasa de cobertura de línea un 6,19 % mayor que los avisos estáticos. El marco identificó más errores que los métodos básicos, lo que demuestra su capacidad para generar escenarios extremos de manera efectiva. Los casos de prueba generados con indicaciones optimizadas mostraron una mejora en la corrección semántica, lo que redujo la necesidad de ajustes manuales.

En pocas palabras, MAPS es una técnica de optimización de última generación para la generación rápida, particularmente dirigida a LLM utilizados en el dominio de pruebas de software. Algunas de las debilidades de las técnicas de generación de casos de prueba disponibles se han abordado a través de arquitecturas de múltiples etapas que incorporan evaluaciones de referencia, ciclos de retroalimentación iterativos y ajustes específicos del modelo. Estas nuevas características del marco no solo automatizan la optimización rápida, sino que mejoran la calidad y confiabilidad de los resultados en los flujos de trabajo de prueba automatizados, lo que lo convierte en una herramienta indispensable para los equipos de desarrollo de software que buscan eficiencia y eficacia en sus procesos de prueba.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..

Afeerah Naseem es pasante de consultoría en Marktechpost. Está cursando su licenciatura en tecnología en el Instituto Indio de Tecnología (IIT), Kharagpur. Le apasiona la ciencia de datos y le fascina el papel de la inteligencia artificial en la resolución de problemas del mundo real. Le encanta descubrir nuevas tecnologías y explorar cómo pueden hacer que las tareas cotidianas sean más fáciles y eficientes.

The Prompt Alchemist: optimización automatizada de avisos adaptada a LLM para la generación de casos de prueba

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

You missed

Los casos de rotavirus aumentan en los EE. UU., lo que representa el mayor riesgo para los bebés y los niños pequeños

INFERNO EN EL CORAZÓN DE TORREVIEJA: LOS RESIDENTES HUYEN MIENTRAS LAS LLAMAS Arrasan UN BLOQUE DE VIVIENDAS – The Leader

Video captura a mujer atacándola en McDonald’s

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia