Screenshot 2024 06 01 At 10.38.57 Pm.png

Scale AI ha anunciado el lanzamiento de Tablas de clasificación SEAL, un sistema de clasificación innovador y dirigido por expertos para modelos de lenguajes grandes (LLM). Esta iniciativa es un producto del Laboratorio de Alineación, Evaluaciones y Seguridad (SEAL) a escala, que se dedica a proporcionar evaluaciones neutrales y confiables de modelos de IA. Las tablas de clasificación SEAL tienen como objetivo abordar la creciente necesidad de comparaciones confiables de desempeño a medida que los LLM se vuelven más avanzados y ampliamente utilizados.

Con cientos de LLM, comparar su desempeño y seguridad se ha vuelto cada vez más desafiante. Scale, un evaluador externo confiable para los principales laboratorios de IA, ha desarrollado el Tablas de clasificación SEAL para clasificar los LLM de vanguardia utilizando conjuntos de datos privados seleccionados que no se pueden manipular. Estas evaluaciones son realizadas por expertos en el dominio verificados, lo que garantiza que las clasificaciones sean imparciales y proporcionen una medida real del rendimiento del modelo.

Las tablas de clasificación SEAL cubren inicialmente varios dominios críticos, que incluyen:

Fuente de imagen [Dated: 31 May 2024]
Fuente de imagen [Dated: 31 May 2024]
Fuente de imagen [Dated: 31 May 2024]
Fuente de imagen [Dated: 31 May 2024]

Cada dominio presenta conjuntos de indicaciones creados desde cero por expertos, diseñados para evaluar mejor el desempeño en esa área específica. Los evaluadores son examinados rigurosamente, asegurándose de que posean la experiencia necesaria en un dominio específico.

Para mantener la integridad de las evaluaciones, los conjuntos de datos de Scale permanecen privados e inéditos, lo que evita que sean explotados o incluidos en los datos de entrenamiento del modelo. Las tablas de clasificación SEAL limitan las entradas de los desarrolladores que podrían haber accedido a conjuntos de mensajes específicos, lo que garantiza resultados imparciales. Scale colabora con organizaciones de terceros confiables para revisar su trabajo, agregando otra capa de responsabilidad.

El laboratorio de investigación SEAL de Scale, inaugurado en noviembre pasado, está en una posición única para abordar varios desafíos persistentes en la evaluación de la IA:

  • Contaminación y sobreajuste: Garantizar conjuntos de datos de evaluación no contaminados y de alta calidad.
  • Informes inconsistentes: Estandarizar las comparaciones de modelos y la confiabilidad de los resultados de las evaluaciones.
  • Experiencia no verificada: Evaluación rigurosa de la experiencia de los evaluadores en dominios específicos.
  • Herramientas inadecuadas: Proporcionar herramientas sólidas para comprender e iterar los resultados de la evaluación sin sobreajuste.

Estos esfuerzos tienen como objetivo mejorar la calidad general, la transparencia y la estandarización de las evaluaciones del modelo de IA.

Scale planea actualizar continuamente las tablas de clasificación SEAL con nuevos conjuntos de mensajes y modelos de frontera a medida que estén disponibles, actualizando las clasificaciones varias veces al año para reflejar los últimos avances en IA. Este compromiso garantiza que las tablas de clasificación sigan siendo relevantes y actualizadas, impulsando mejores estándares de evaluación en toda la comunidad de IA.

Además de las tablas de clasificación, Scale ha anunciado la disponibilidad general de Scale Assessment, una plataforma diseñada para ayudar a investigadores, desarrolladores, empresas y organizaciones del sector público de IA a analizar, comprender y mejorar sus modelos y aplicaciones de IA. Esta plataforma marca un paso adelante en la misión de Scale de acelerar el desarrollo de la IA a través de evaluaciones rigurosas e independientes.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.