El soneto 3.5 de Anthropic Claude se encuentra actualmente en la cima de Índices de referencia de S&P AI de Kenshoque evalúa modelos de lenguaje extensos (LLM) para finanzas y negocios. Kensho es el centro de innovación en inteligencia artificial de S&P Global. La roca madre del AmazonasKensho pudo ejecutar rápidamente Anthropic Claude 3.5 Sonnet en un conjunto complejo de tareas comerciales y financieras. En esta publicación, analizamos estas tareas y las capacidades de Anthropic Claude 3.5 Sonnet.
Limitaciones de las evaluaciones de LLM
Es una práctica común utilizar pruebas estandarizadas, como Massive Multitask Language Understanding (MMLU, una prueba que consta de preguntas de opción múltiple que cubren 57 disciplinas como matemáticas, filosofía y medicina) y HumanEval (prueba de generación de código), para evaluar los LLM. Si bien estas evaluaciones son útiles para brindarles a los usuarios de LLM una idea del desempeño relativo de un LLM, tienen limitaciones. Por ejemplo, podría haber fugas de preguntas y respuestas de conjuntos de datos de referencia en los datos de capacitación. Además, los LLM actuales funcionan bien para tareas generales, como tareas de respuesta a preguntas y generación de código. Sin embargo, estas capacidades no siempre se traducen en tareas específicas del dominio. En la industria de servicios financieros, escuchamos a los clientes preguntar qué modelo elegir para sus aplicaciones de inteligencia artificial (IA) generativa del dominio financiero. Estas aplicaciones requieren que los LLM tengan el conocimiento del dominio requerido y puedan razonar sobre datos numéricos para calcular métricas y extraer información. También hemos escuchado de los clientes que los LLM de referencia general altamente calificados no necesariamente les brindan el mejor desempeño para sus aplicaciones financieras y comerciales.
Nuestros clientes a menudo nos preguntan si tenemos un punto de referencia de LLM exclusivos para la industria financiera que pueda ayudarlos a elegir el LLM adecuado más rápidamente.
Índices de referencia de S&P AI de Kensho
Cuando el laboratorio de I+D de Kensho comenzó a investigar y desarrollar conjuntos de datos útiles y desafiantes para las finanzas y los negocios, rápidamente se hizo evidente que dentro de la industria financiera, existía una escasez de evaluaciones tan realistas. Para abordar este desafío, el laboratorio creó S&P AI Benchmarks, cuyo objetivo es servir como el estándar de la industria para los modelos de evaluación comparativa para las finanzas y los negocios.
“Al ofrecer una solución de evaluación comparativa sólida e independiente, queremos ayudar a la industria de servicios financieros a tomar decisiones inteligentes sobre qué modelos implementar para qué casos de uso”.
– Bhavesh Dayalji, director de inteligencia artificial de S&P Global y director ejecutivo de Kensho.
S&P AI Benchmarks se centra en medir la capacidad de los modelos para realizar tareas que se centran en tres categorías de capacidades y conocimientos: conocimiento del dominio, extracción de cantidades y razonamiento cuantitativo (se pueden encontrar más detalles en este papel). Este recurso disponible públicamente incluye una tabla de clasificación correspondiente, que permite a todos ver el desempeño de cada modelo de lenguaje de última generación que se ha evaluado en estas rigurosas tareas. Anthropic Claude 3.5 Sonnet ocupa actualmente el puesto número uno (a julio de 2024), lo que demuestra las fortalezas de Anthropic en el ámbito empresarial y financiero.
Kensho eligió probar su benchmark con Amazon Bedrock debido a su facilidad de uso y sus controles de seguridad y privacidad preparados para la empresa.
Las tareas de evaluación
S&P AI Benchmarks evalúa a los estudiantes de máster en derecho mediante una amplia gama de preguntas relacionadas con las finanzas y los negocios. La evaluación consta de 600 preguntas que abarcan tres categorías: conocimiento del dominio, extracción de cantidades y razonamiento cuantitativo. Cada pregunta ha sido verificada por expertos en el dominio y profesionales financieros con más de 5 años de experiencia.
Razonamiento cuantitativo
Esta tarea determina si, dada una pregunta y documentos extensos, el modelo puede realizar cálculos complejos y razonar correctamente para producir una respuesta precisa. Las preguntas están escritas por profesionales financieros que utilizan datos del mundo real y conocimientos financieros. Por lo tanto, son más cercanas a los tipos de preguntas que los profesionales de negocios y finanzas harían en una aplicación de IA generativa. El siguiente es un ejemplo:
Pregunta:El precio de mercado de las acciones ordinarias de KT-Lew Corporation es de 60 dólares por acción, y cada acción otorga a su propietario un derecho de suscripción. Se requieren cuatro derechos para comprar una acción ordinaria adicional al precio de suscripción de 54 dólares por acción. Si las acciones ordinarias se venden actualmente con derechos de suscripción, ¿cuál es el valor teórico de un derecho? Responda al centavo más cercano.
Para responder a la pregunta, los LLM deben resolver referencias cuantitativas complejas y utilizar conocimientos financieros básicos implícitos. Por ejemplo, “derecho de suscripción”, “derecho de venta” y “precio de suscripción” en la pregunta anterior requieren conocimientos financieros básicos para comprender los términos. Para generar la respuesta, los LLM deben tener los conocimientos financieros necesarios para calcular el “valor teórico de un derecho”.
Extracción de cantidad
Dados los informes financieros, un LLM puede extraer la información numérica pertinente. Muchos flujos de trabajo comerciales y financieros requieren una extracción de cantidades de alta precisión. En el siguiente ejemplo, para que un LLM responda la pregunta correctamente, debe comprender que la fila de la tabla representa la ubicación y la columna representa el año, y luego extraer la cantidad correcta (monto total) de la tabla según la ubicación y el año solicitados:
Pregunta:¿Cuál fue el monto total de las Américas en 2019? (miles)
| Años terminados el 31 de diciembre de | |||
| 2019 | 2018 | 2017 | |
| Américas: | . | . | . |
| Estados Unidos | $614,493 | $668,580 | $644,870 |
| Las Filipinas | 250.888 | 231.966 | 241.211 |
| Costa Rica | 127.078 | 127.963 | 132.542 |
| Canadá | 99.037 | 102.353 | 112.367 |
| El Salvador | 81,195 | 81.156 | 75.800 |
| Otro | 123.969 | 118.620 | 118.853 |
| Américas en su totalidad | 1.296.660 | 1.330.638 | 1.325.643 |
| Europa, Oriente Medio y África: | . | . | . |
| Alemania | 94.166 | 91.703 | 81.634 |
| Otro | 223.847 | 203.251 | 178.649 |
| Total EMEA | 318.013 | 294.954 | 260,283 |
| Total Otros | 89 | 95 | 82 |
| . | $1,614,762 | $1,625,687 | $1,586,008 |
Conocimiento del dominio
Los modelos deben demostrar una comprensión de los términos, prácticas y fórmulas comerciales y financieros. La tarea consiste en responder preguntas de opción múltiple recopiladas de los exámenes de práctica de CFA y de los exámenes de ética empresarial, microeconomía y contabilidad profesional del conjunto de datos de MMLU. En la siguiente pregunta de ejemplo, el LLM debe comprender qué es un sistema de tasa fija:
Pregunta:Un sistema de tipo de interés fijo se caracteriza por:
A: Compromiso legislativo explícito de mantener una paridad específica.
B: La independencia monetaria está sujeta al mantenimiento de un tipo de cambio fijo.
C: Reservas de divisas objetivo que guardan una relación directa con los agregados monetarios internos.
Soneto 3.5 de Anthropic Claude en Amazon Bedrock
Además de ocupar el primer puesto en los índices de referencia de inteligencia artificial de S&P, Anthropic Claude 3.5 Sonnet ofrece un rendimiento de vanguardia en una amplia gama de otras tareas, incluido el conocimiento experto de nivel de pregrado (MMLU), el razonamiento experto de nivel de posgrado (GPQA), el código (HumanEval) y más. Como se señala en El modelo Claude 3.5 Sonnet de Anthropic ya está disponible en Amazon Bedrock: aún más inteligencia que Claude 3 Opus a una quinta parte del costoAnthropic Claude 3.5 Sonnet realizó mejoras clave en el procesamiento y comprensión visual, la redacción y generación de contenido, el procesamiento del lenguaje natural, la codificación y la generación de conocimientos.
Comienza a leer Anthropic Claude 3.5 Sonnet en Amazon Bedrock
El soneto 3.5 de Anthropic Claude está generalmente disponible en Amazon Bedrock como parte de la Familia antrópica Claude de modelos de IA. Amazon Bedrock es un servicio totalmente administrado que ofrece acceso rápido a una selección de LLM líderes en la industria y otros modelos básicos de AI21 Labs, Anthropic, Cohere, Meta, Stability AI y Amazon. También ofrece un amplio conjunto de capacidades para crear aplicaciones de IA generativa, simplificando el desarrollo y al mismo tiempo respaldando la privacidad y la seguridad. Decenas de miles de clientes ya han seleccionado Amazon Bedrock como la base para su estrategia de IA generativa. Los clientes de la industria financiera, como Nasdaq, NYSE, Broadridge, Jefferies, NatWest y más, usan Amazon Bedrock para crear sus aplicaciones de IA generativa.
“El equipo de Kensho utiliza Amazon Bedrock para evaluar rápidamente los modelos de varios proveedores diferentes. De hecho, el acceso a Amazon Bedrock permitió al equipo realizar una evaluación comparativa de Anthropic Claude 3.5 Sonnet en 24 horas”.
– Diana Mingels, directora de aprendizaje automático en Kensho.
Conclusión
En este post, recorrimos el Índices de referencia de inteligencia artificial del S&P Detalles de la tarea para negocios y finanzas. El punto de referencia muestra que Anthropic Claude 3.5 Sonnet es el mejor en estas tareas. Para comenzar a utilizar este nuevo modelo, consulte Modelos antrópicos de ClaudeCon Amazon Bedrock, obtienes un servicio completamente administrado que ofrece acceso a los principales modelos de IA de empresas como AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI y Amazon a través de una única API, junto con un amplio conjunto de capacidades para crear aplicaciones de IA generativas. Obtén más información y comienza hoy mismo en La roca madre del Amazonas.
Sobre los autores
Li Qingwei es especialista en aprendizaje automático en Amazon Web Services. Obtuvo su doctorado en Investigación de operaciones después de quebrar la cuenta de becas de investigación de su asesor y no entregar el Premio Nobel que prometió. Actualmente ayuda a los clientes de la industria de servicios financieros y seguros a crear soluciones de aprendizaje automático en AWS. En su tiempo libre, le gusta leer y enseñar.
Joe Dunn es arquitecto principal de soluciones de AWS en el área de servicios financieros y tiene más de 20 años de experiencia en arquitectura de infraestructura y migración de cargas críticas para el negocio a AWS. Ayuda a los clientes de servicios financieros a innovar en la nube de AWS al brindar soluciones mediante productos y servicios de AWS.
Raghvender Arni (Arni) es parte del equipo AWS Generative AI GTM y lidera el equipo Cross-Portfolio, que es un grupo multidisciplinario de especialistas en IA dedicados a acelerar y optimizar la adopción de IA generativa en todas las industrias.
Simón Zamarín es un arquitecto de soluciones de IA/ML cuyo principal objetivo es ayudar a los clientes a extraer valor de sus activos de datos. En su tiempo libre, a Simon le gusta pasar tiempo con su familia, leer ciencia ficción y trabajar en varios proyectos caseros de bricolaje.
Scott Mullins es director ejecutivo y gerente general de la organización de servicios financieros mundiales de AWS. En este puesto, Scott es responsable de las relaciones de AWS con instituciones financieras de importancia sistémica y de liderar el desarrollo y la ejecución de las iniciativas estratégicas de AWS en los sectores bancario, de pagos, de mercados de capitales y de seguros en todo el mundo. Antes de unirse a AWS en 2014, la carrera de 28 años de Scott en servicios financieros incluyó puestos en JPMorgan Chase, Nasdaq, Merrill Lynch y Penson Worldwide. En Nasdaq, Scott fue el gerente de productos responsable de crear la primera solución basada en la nube de la bolsa, FinQloud. Antes de unirse a NASDAQ, Scott dirigió la supervisión y el cumplimiento de las operaciones de uno de los corredores de bolsa más grandes del país, con la responsabilidad de la respuesta regulatoria, las iniciativas regulatorias emergentes y los asuntos de cumplimiento relacionados con las divisiones de servicios de ejecución y operaciones de la empresa. Antes de sus funciones en cumplimiento normativo, Scott pasó 10 años como operador de acciones. Graduado de la Universidad Texas A&M, Scott es un experto en la materia citado en los medios de la industria y un orador reconocido en eventos de la industria.