El AWS Deepracer League es la primera liga de carreras autónoma del mundo, abierta a cualquiera. Anunciado en Re: Invent 2018, pone el aprendizaje automático en manos de cada desarrollador a través de la diversión y la emoción de desarrollar y correr autos de control remoto autónomo. Durante los últimos 7 años, más de 560 mil desarrolladores de todos los niveles de habilidad han competido en la liga en miles de eventos de Amazon y Clientes a nivel mundial. Mientras que los campeonatos finales concluyeron en Re: Invent 2024, ese mismo evento fue el anfitrión de una nueva competencia de IA, marcando el comienzo de una nueva era de aprendizaje gamificado en la era de la IA generativa.

En diciembre de 2024, AWS lanzó la AWS Language Model League (AWS LLM League) durante Re: Invent 2024. Este evento inaugural marcó un hito significativo en la democratización del aprendizaje automático, reuniendo a más de 200 asistentes entusiastas de diversos orígenes para participar en talleres técnicos prácticos y un desafío competitivo de la base de la base. Utilizando los aprendizajes de DeepRacer, el objetivo principal del evento era simplificar el aprendizaje de personalización del modelo al tiempo que fomentaba una comunidad colaborativa en torno a la innovación generativa de IA a través de un formato de competencia gamificado.

Estructura y resultados de la liga de aws llm

La AWS LLM League fue diseñada para reducir las barreras de entrada en la personalización generativa del modelo de IA al proporcionar una experiencia en la que los participantes, independientemente de su experiencia previa en la ciencia de datos, podrían participar en LLM de ajuste. Usando Amazon Sagemaker Jumpstartlos asistentes fueron guiados a través del proceso de personalización de LLM para abordar los desafíos comerciales reales adaptables a su dominio.

Como se muestra en la figura anterior, el desafío comenzó con un taller, donde los participantes se embarcaron en un viaje competitivo para desarrollar LLMS altamente efectivos. Los competidores tuvieron la tarea de personalizar el modelo base LLAMA 3.2 3B 3B para un dominio específico, aplicando las herramientas y técnicas que aprendieron. El modelo enviado se compararía con un modelo de referencia más grande de 90B con la calidad de las respuestas decididas por usar un LLM-as-a-Judge acercarse. Los participantes obtienen una victoria para cada pregunta en la que el juez de LLM consideró que la respuesta del modelo ajustado es más precisa e integral que la del modelo más grande.

En las rondas preliminares, los participantes presentaron cientos de modelos únicos sintonizados a la tabla de clasificación de la competencia, cada uno esforzando por superar al modelo de referencia. Estas presentaciones se evaluaron en función de la precisión, la coherencia y la adaptabilidad específica del dominio. Después de rigurosas evaluaciones, los cinco finalistas principales fueron preseleccionados, y los mejores modelos lograron tasas de ganancia por encima del 55% frente a los grandes modelos de referencia (como se muestra en la cifra anterior). Demostrar que un modelo más pequeño puede lograr un rendimiento competitivo destaca beneficios significativos en la eficiencia de calcular a escala. El uso de un modelo 3B en lugar de un modelo 90B reduce los costos operativos, permite una inferencia más rápida y hace que la IA avanzada sea más accesible en diversas industrias y casos de uso.

La competencia culmina en el Gran Final, donde los finalistas muestran sus modelos en una ronda final de evaluación para determinar el ganador final.

El viaje de ajuste

Este viaje fue cuidadosamente diseñado para guiar a los participantes a través de cada etapa crítica de ajustar un modelo de lenguaje grande, desde la creación del conjunto de datos hasta la evaluación del modelo, utilizando un conjunto de herramientas AWS sin código. Ya sea que fueran recién llegados o constructores experimentados, los participantes obtuvieron experiencia práctica en la personalización de un modelo de base a través de un proceso estructurado y accesible. Echemos un vistazo más de cerca a cómo se desarrolló el desafío, comenzando con cómo los participantes prepararon sus conjuntos de datos.

Etapa 1: Preparación del conjunto de datos con Partyrock

Durante el taller, los participantes aprendieron cómo generar datos sintéticos utilizando un Amazon Partyrock parque infantil (como se muestra en la siguiente figura). Partyrock ofrece acceso a una variedad de modelos de base principales a través de Amazon Bedrock sin costo adicional. Esto permitió a los participantes usar una aplicación generada por AI sin código para crear datos de entrenamiento sintético que se usaron para el ajuste fino.

Los participantes comenzaron definiendo el dominio objetivo para su tarea de ajuste, como finanzas, atención médica o cumplimiento legal. Usando la interfaz intuitiva de Partyrock, generaron pares de respuesta de instrucción que imitaban las interacciones del mundo real. Para mejorar la calidad del conjunto de datos, utilizaron la capacidad de Partyrock para refinar las respuestas de manera iterativa, asegurándose de que los datos generados estuvieran contextualmente relevantes y alineados con los objetivos de la competencia.

Esta fase fue crucial porque la calidad de los datos sintéticos afectó directamente la capacidad del modelo para superar a un modelo de referencia más grande. Algunos participantes mejoraron aún más sus conjuntos de datos al emplear métodos de validación externos, como la revisión humana en el bucle o el filtrado basado en el aprendizaje de refuerzo.

Etapa 2: ajuste con Sagemaker Jumpstart

Después de que se prepararon los conjuntos de datos, los participantes se mudaron a Sagemaker JumpStart, un centro de aprendizaje automático completamente administrado que simplifica el proceso de ajuste. Utilizando un modelo Meta Llama 3.2 3B previamente entrenado como base, lo personalizaron con sus conjuntos de datos curados, ajustando los hiperparámetros (que se muestran en la siguiente figura) como:

  • Épocas: Determinar cuántas veces el modelo itera sobre el conjunto de datos.
  • Tasa de aprendizaje: Controlar cuánto se ajustan los pesos del modelo con cada iteración.
  • Parámetros de Lora: Optimización de la eficiencia con técnicas de adaptación de bajo rango (LORA).

Una de las ventajas clave de Sagemaker JumpStart es que proporciona una interfaz de usuario sin código, que se muestra en la siguiente figura, lo que permite a los participantes ajustar modelos sin necesidad de escribir código. Esta accesibilidad permitió que incluso aquellos con una experiencia mínima de aprendizaje automático participaran en la personalización del modelo de manera efectiva.

Al utilizar las capacidades de capacitación distribuida de Sagemaker, los participantes pudieron ejecutar múltiples experimentos en paralelo, optimizando sus modelos para la precisión y la calidad de la respuesta. El proceso iterativo de ajuste fino les permitió explorar diferentes configuraciones para maximizar el rendimiento.

Etapa 3: Evaluación con Sagemaker aclara

Para asegurarse de que sus modelos no solo fueran precisos sino también imparciales, los participantes tenían la opción de usar Amazon Sagemaker aclara Para la evaluación, que se muestra en la siguiente figura.

Esta fase incluyó:

  • Detección de sesgo: Identificar patrones de respuesta sesgados que podrían favorecer puntos de vista específicos.
  • Métricas de explicación: Comprender por qué el modelo hizo ciertas predicciones.
  • Anotación de rendimiento: Comparación de la salida del modelo con las etiquetas de la verdad de tierra.

Si bien no es obligatoria, la integración de Sagemaker aclara proporcionó una capa adicional de garantía para los participantes que querían validar aún más sus modelos, verificando que sus salidas eran confiables y funcionales.

Etapa 4: Presentación y evaluación utilizando LLM-As-A-Judge de Amazon Bedrock

Después de que los modelos ajustados estaban listos, se sometieron a la tabla de clasificación de la competencia para su evaluación utilizando el Evaluaciones de roca madre de Amazon Enfoque LLM-as-a-Judge. Este sistema de evaluación automatizado compara los modelos ajustados con el modelo de referencia 90B utilizando puntos de referencia predefinidos, como se muestra en la siguiente figura.

Cada respuesta se calificó en función de:

  • Pertinencia: Qué tan bien la respuesta abordó la pregunta.
  • Profundidad: El nivel de detalle y la información proporcionada.
  • Coherencia: Flujo lógico y consistencia de la respuesta.

Los modelos de los participantes obtuvieron una puntuación cada vez que su respuesta superaba al modelo 90B en una comparación cara a cara. La tabla de clasificación se actualizó dinámicamente como nuevas presentaciones, fomentando un entorno de aprendizaje competitivo pero colaborativo.

Gran escaparate final

El gran final de la Liga AWS LLM fue un enfrentamiento electrizante, donde los cinco mejores finalistas, seleccionados de cientos de presentaciones, compitieron en un evento en vivo de alto riesgo. Entre ellos estaba Ray, un contendiente determinado cuyo modelo ajustado había entregado consistentemente fuertes resultados durante toda la competencia. Cada finalista tuvo que demostrar no solo la superioridad técnica de sus modelos ajustados, sino también su capacidad para adaptar y refinar las respuestas en tiempo real.

La competencia fue intensa desde el principio, y cada participante aportó estrategias únicas a la mesa. La capacidad de Ray para ajustar las indicaciones lo distinga dinámicamente desde el principio, proporcionando respuestas óptimas a una gama de preguntas específicas de dominio. La energía en la sala era palpable ya que las respuestas generadas por la IA finalistas fueron juzgadas por un sistema de evaluación híbrida: 40% por un LLM, 40% por panelistas expertos de Meta AI y AWS, y el 20% por una audiencia en vivo entusiasta contra la siguiente rúbrica:

  • Capacidad de generalización: Qué tan bien el modelo ajustado se adaptó a las preguntas invisibles previamente invisibles.
  • Calidad de respuesta: Profundidad, precisión y comprensión contextual.
  • Eficiencia: La capacidad del modelo para proporcionar respuestas integrales con una latencia mínima.

Uno de los momentos más apasionantes llegó cuando los concursantes se encontraron con el infame Problema de fresaun desafío engañosamente simple de conteo de letras que expuso una debilidad inherente en LLMS. El modelo de Ray entregó la respuesta correcta, pero el juez de IA lo clasificó mal, lo que provocó un debate entre los jueces y la audiencia humanos. Este momento fundamental subrayó la importancia de la evaluación humana del bucle, destacando cómo la IA y el juicio humano deben complementarse entre sí para evaluaciones justas y precisas.

Como concluyó la ronda final, el modelo de Ray superó constantemente las expectativas, asegurándole el título de campeón de la Liga AWS LLM. El gran final no fue solo una prueba de IA, sino un escaparate de la innovación, la estrategia y la sinergia en evolución entre la inteligencia artificial y el ingenio humano.

Conclusión y mirando hacia el futuro

La competencia inaugural de la Liga AWS LLM demostró con éxito cómo el ajuste de ajuste del modelo de idioma grande se puede gamificar para impulsar la innovación y el compromiso. Al proporcionar experiencia práctica con los servicios de AWS AI y Machine Learning (ML) de vanguardia, la competencia no solo desmitificó el proceso de ajuste, sino que también inspiró una nueva ola de entusiastas de la IA para experimentar e innovar en este espacio.

A medida que avanza la AWS LLM League, las iteraciones futuras se ampliarán en estos aprendizajes, incorporando desafíos más avanzados, conjuntos de datos más grandes y oportunidades de personalización de modelos más profundas. Ya sea que sea un practicante experimentado de IA o un recién llegado al aprendizaje automático, la Liga AWS LLM ofrece una forma emocionante y accesible de desarrollar experiencia en la IA del mundo real.

¡Estén atentos para los próximos eventos de la liga de AWS LLM y prepárese para poner a prueba sus habilidades de ajuste!


Sobre los autores

Vincent oh es el arquitecto de soluciones especialistas senior en AWS para AI e innovación. Trabaja con clientes del sector público en la ASEAN, posee compromisos técnicos y ayudándoles a diseñar soluciones de nube escalables en varios proyectos de innovación. Creó la LLM League en medio de ayudar a los clientes a aprovechar el poder de la IA en sus casos de uso a través del aprendizaje gamificado. También se desempeña como profesor adjunto en la Universidad de Gestión de Singapur (SMU), enseñando módulos de informática en la Escuela de Computación y Sistemas de Información (SCIS). Antes de unirse a Amazon, trabajó como arquitecto digital principal senior en Accenture y el líder de la práctica de ingeniería en la nube en UST.

Natasya K. Idries es el gerente de marketing de productos para los programas de aprendizaje gamificados AWS AI/ML. Le apasiona democratizar las habilidades de IA/ML a través de iniciativas educativas atractivas y prácticas que cierran la brecha entre la tecnología avanzada y la implementación práctica de negocios. Su experiencia en la creación de comunidades de aprendizaje e innovación digital continúa dando forma a su enfoque para crear programas de educación de IA impactantes. Fuera del trabajo, a Natasya disfruta viajar, cocinar cocinas del sudeste asiático y explorar los senderos de la naturaleza.

Por automata