Conozca LegalBench: un punto de referencia de IA de código abierto construido en colaboración para evaluar el razonamiento jurídico en modelos de lenguaje grande en inglés

Los abogados y administradores estadounidenses están reevaluando la profesión jurídica debido a los avances en los modelos de lenguajes grandes (LLM). Según sus partidarios, los LLM podrían cambiar la forma en que los abogados abordan trabajos como redacción de escritos y cumplimiento corporativo. Eventualmente podrían contribuir a resolver el antiguo dilema del acceso a la justicia en los Estados Unidos al aumentar la accesibilidad a los servicios legales. Este punto de vista está influenciado por el hallazgo de que los LLM tienen cualidades únicas que los hacen más preparados para el trabajo legal. Los gastos asociados con la anotación manual de datos, que a menudo añaden gastos a la creación de modelos de lenguaje legal, se reducirían gracias a la capacidad de los modelos para aprender nuevas tareas a partir de pequeñas cantidades de datos etiquetados.

También serían muy adecuados para el estudio riguroso del derecho, que incluye descifrar textos complejos con mucha jerga y participar en procedimientos inferenciales que integran varios modos de pensamiento. El hecho de que las aplicaciones legales a menudo implican un alto riesgo frena este entusiasmo. Las investigaciones han demostrado que los LLM pueden producir información ofensiva, engañosa y objetivamente incorrecta. Si estas acciones se repitieran en contextos legales, podrían causar daños graves, y las personas históricamente marginadas y de escasos recursos tendrían un peso desproporcionado. Por lo tanto, existe una necesidad urgente de construir infraestructura y procedimientos para medir los LLM en contextos legales debido a las implicaciones de seguridad.

Sin embargo, los profesionales que quieren juzgar si los LLM pueden utilizar el razonamiento jurídico enfrentan obstáculos importantes. La pequeña ecología de los puntos de referencia legales es el primer obstáculo. Por ejemplo, la mayoría de los puntos de referencia actuales se concentran en tareas que los modelos aprenden ajustando o entrenando datos específicos de la tarea. Estos estándares no capturan las características de los LLM que inspiran interés en la práctica jurídica, específicamente, su capacidad para completar diversas tareas con solo indicaciones breves. De manera similar, las iniciativas de evaluación comparativa se han centrado en exámenes de certificación profesional como el examen uniforme de la barra, aunque no siempre indican aplicaciones del mundo real para los LLM. La segunda cuestión es la discrepancia entre cómo los abogados y los estándares establecidos definen el “razonamiento jurídico”.

Los puntos de referencia utilizados actualmente clasifican en términos generales cualquier trabajo que requiera información legal o leyes como evaluación del “razonamiento legal”. Por el contrario, los abogados son conscientes de que la frase “razonamiento jurídico” es amplia y abarca varios tipos de razonamiento. Diversas responsabilidades legales exigen diferentes habilidades y conocimientos. Es un desafío para los profesionales del derecho contextualizar el desempeño de los LLM contemporáneos dentro de su sentido de competencia legal, ya que los estándares legales existentes deben identificar estas diferencias. La profesión jurídica no emplea la misma jerga o marcos conceptuales que las normas jurídicas. Dadas estas restricciones, creen que para evaluar rigurosamente las habilidades de razonamiento jurídico de los LLM, la comunidad jurídica deberá involucrarse más en el proceso de evaluación comparativa.

Para hacer esto, presentan LEGALBENCH, que representa las etapas iniciales en la creación de un punto de referencia interdisciplinario colaborativo de razonamiento legal para inglés.3 Los autores de esta investigación trabajaron juntos durante el año pasado para construir 162 tareas (de 36 fuentes de datos distintas), cada una de las cuales que pone a prueba una forma particular de razonamiento jurídico. Se basaron en sus diversos conocimientos jurídicos e informáticos. Hasta donde saben, LEGALBENCH es el primer proyecto de evaluación comparativa legal de código abierto. Este método de diseño de referencia, en el que expertos en la materia participan activa y activamente en el desarrollo de tareas de evaluación, ejemplifica un tipo de cooperación multidisciplinaria en la investigación de LLM. También sostienen que demuestra el papel crucial que los profesionales del derecho deben desempeñar en la evaluación y el avance de los LLM en derecho.

Destacan tres aspectos de LEGALBENCH como proyecto de investigación:

1. LEGALBENCH se construyó utilizando una combinación de conjuntos de datos legales preexistentes que habían sido reformateados para el paradigma LLM de pocas tomas y conjuntos de datos creados manualmente que fueron generados y proporcionados por expertos legales que también figuraban como autores de este trabajo. Se invitó a los expertos legales involucrados en esta cooperación a proporcionar conjuntos de datos que prueben un talento de razonamiento legal intrigante o representen una aplicación prácticamente valiosa para los LLM en derecho. Como resultado, un desempeño sólido en las asignaciones de LEGALBENCH ofrece datos relevantes que los abogados pueden usar para confirmar su opinión sobre la competencia legal de un LLM o para encontrar un LLM que pueda beneficiar su flujo de trabajo.

2. Las tareas del BANCO LEGAL se organizan en una tipología detallada que describe los tipos de razonamiento legal necesarios para completar la tarea. Los profesionales del derecho pueden participar activamente en los debates sobre el desempeño del LLM, ya que esta tipología se basa en marcos comunes a la comunidad jurídica y utiliza vocabulario y un marco conceptual con el que ya están familiarizados.

3. Por último, LEGALBENCH está diseñado para servir como plataforma para más estudios. LEGALBENCH ofrece una ayuda sustancial para saber cómo impulsar y evaluar diversas actividades para investigadores de IA sin formación jurídica. También tienen la intención de expandir LEGALBENCH al continuar solicitando e incluyendo el trabajo de profesionales del derecho a medida que más miembros de la comunidad legal continúan interactuando con el efecto y función potencial de los LLM.

Ellos contribuyen a este artículo:

1. Ofrecen una tipología para clasificar y caracterizar los deberes jurídicos según las justificaciones necesarias. Esta tipología se basa en los marcos que utilizan los abogados para explicar el razonamiento jurídico.

2. A continuación, ofrecen una visión general de las actividades de LEGALBENCH, describiendo cómo fueron creadas, las dimensiones de heterogeneidad significativas y las limitaciones. En el apéndice se proporciona una descripción detallada de cada tarea.

3. Para analizar 20 LLM de 11 familias diferentes en varios puntos de tamaño, emplean LEGALBENCH como último paso. Ofrecen una investigación temprana de varias tácticas de ingeniería rápida y hacen comentarios sobre la efectividad de varios modelos.

En última instancia, estos hallazgos ilustran varios temas de investigación potenciales que LEGALBENCH puede facilitar. Anticipan que una variedad de comunidades encontrarán fascinante este punto de referencia. Los profesionales pueden utilizar estas actividades para decidir si los LLM podrían incluirse en los procesos actuales y cómo hacerlo para mejorar los resultados de los clientes. Los diversos tipos de anotaciones de las que son capaces los LLM y los diversos tipos de trabajo académico empírico que permiten pueden ser de interés para los académicos del derecho. El éxito de estos modelos en un campo como el derecho, donde las características léxicas especiales y las tareas desafiantes pueden revelar ideas novedosas, puede interesar a los informáticos.

Antes de continuar, aclaran que el objetivo de este trabajo no es evaluar si las tecnologías computacionales deberían reemplazar a los abogados y al personal jurídico o comprender las ventajas y desventajas de tal reemplazo. En cambio, quieren crear artefactos para ayudar a las comunidades afectadas y a las partes interesadas pertinentes a comprender mejor qué tan bien los LLM pueden cumplir con ciertas responsabilidades legales. Dada la difusión de estas tecnologías, creen que la solución a este problema es crucial para garantizar el uso seguro y moral de las herramientas legales computacionales.

Revisar la Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 29k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.

🚀 CodiumAI permite a los desarrolladores ocupados generar pruebas significativas (patrocinado)

Conozca LegalBench: un punto de referencia de IA de código abierto construido en colaboración para evaluar el razonamiento jurídico en modelos de lenguaje grande en inglés

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cómo TabPFN aprovecha el aprendizaje en contexto para lograr una precisión superior en conjuntos de datos tabulares en comparación con Random Forest y CatBoost

¿Vivirán los humanos para siempre? La IA corre para derrotar al envejecimiento

Los investigadores de Moonshot AI y Tsinghua proponen PrfaaS: una arquitectura KVCache entre centros de datos que replantea cómo se ofrecen los LLM a escala

You missed

Ryan Reynolds sobre Blake Lively y el caso judicial de Justin Baldoni, rumbo al juicio

Cómo TabPFN aprovecha el aprendizaje en contexto para lograr una precisión superior en conjuntos de datos tabulares en comparación con Random Forest y CatBoost

La vida urbana puede estar provocando grandes cambios en nuestros niveles de estrógeno

El superyate del multimillonario británico en Sóller