¿Se pueden utilizar modelos de lenguaje grande (LLM) para etiquetar datos? | de Maja Pavlovic

Indicaciones: cero frente a pocos disparos

Obtener respuestas significativas de los LLM puede ser todo un desafío. Entonces, ¿cuál es la mejor manera de solicitar a un LLM que etiquete sus datos? Como podemos ver desde tabla 1los estudios anteriores exploraron estímulos de disparo cero o de pocos disparos, o ambos. Tiro cero La indicación espera una respuesta del LLM sin haber visto ningún ejemplo en la indicación. Mientras pocos tiros Las indicaciones incluyen varios ejemplos en la propia solicitud para que el LLM sepa cómo es la respuesta deseada:

Cero versus indicaciones de pocos disparos | fuente de ejemplo (amitsangani) | imagen por autor

Los estudios difieren en sus puntos de vista sobre qué enfoque arroja mejores resultados. Algunos recurren a indicaciones breves en sus tareas, otros a indicaciones nulas. Por lo tanto, es posible que desee explorar qué funciona mejor para su caso de uso y modelo particular.

Si se pregunta cómo empezar con buenas indicaciones Sander Schulhoff & Shyamal H Anadkat Haber creado AprenderPrompting que puede ayudarte con los conceptos básicos y también con técnicas más avanzadas.

Incitación: Sensibilidad

Los LLM son sensibles a modificaciones menores en el mensaje. Cambiar una palabra de su mensaje puede afectar la respuesta. Si desea tener en cuenta esa variabilidad hasta cierto punto, podría abordarla como en el estudio. [3]. Primero, dejaron que un experto en la tarea les proporcionara la indicación inicial. Luego, usando GPT, generan 4 más con significado similar y promedian los resultados de las 5 indicaciones. O también podrías considerar alejarte de las indicaciones escritas a mano e intentar reemplazarlas con firmas dejándolo a DSPy para optimizar el mensaje para usted como se muestra en Leonie Monigattipublicación del blog.

Elección del modelo

¿Qué modelo debería elegir para etiquetar su conjunto de datos? Hay algunos factores a considerar. Veamos brevemente algunas consideraciones clave:

Código abierto versus código cerrado: ¿Optas por el último modelo con mejor rendimiento? ¿O es más importante para usted la personalización de código abierto? Deberá pensar en aspectos como su presupuesto, requisitos de rendimiento, preferencias de personalización y propiedad, necesidades de seguridad y requisitos de soporte de la comunidad.
Barandillas: Los LLM cuentan con barreras de seguridad para evitar que respondan con contenido no deseado o dañino. Si su tarea involucra contenido confidencial, los modelos pueden negarse a etiquetar sus datos. Además, los LLM varían en cuanto a la solidez de sus salvaguardias, por lo que debe explorarlas y compararlas para encontrar la más adecuada para su tarea.
Tamaño del modelo: Los LLM vienen en diferentes tamaños y los modelos más grandes pueden funcionar mejor, pero también requieren más recursos informáticos. Si prefiere utilizar LLM de código abierto y tiene una computación limitada, podría considerar cuantificación. En el caso de los modelos de código cerrado, los modelos más grandes actualmente tienen costos más altos por mensaje asociado. ¿Pero es siempre mejor lo más grande?

Sesgo del modelo

Según estudio [3] más grande, ajustado a las instrucciones³ Los modelos muestran un rendimiento de etiquetado superior. Sin embargo, el estudio no evalúa el sesgo en sus resultados. Otro esfuerzo de investigación muestra que el sesgo tiende a aumentar tanto con la escala como con los contextos ambiguos. Varios estudios también advierten sobre las tendencias de izquierda y la capacidad limitada para representar con precisión las opiniones de los grupos minoritarios (por ejemplo, personas mayores o religiones subrepresentadas). En general, los LLM actuales muestran considerables prejuicios culturales y responden con opiniones estereotipadas de las personas minoritarias. Dependiendo de su tarea y sus objetivos, estas son cosas a considerar en cada cronograma de su proyecto.

“Por defecto, las respuestas del LLM tienden a ser más similares a las opiniones de ciertas poblaciones, como las de Estados Unidos y algunos países europeos y sudamericanos” – cita del estudio [2]

Parámetro del modelo: temperatura

Un parámetro comúnmente mencionado en la mayoría de los estudios en tabla 1 es el parámetro de temperatura, que ajusta la “creatividad” de los resultados del LLM. Estudios [5] y [6] experimente con temperaturas más altas y más bajas y descubra que los LLM tienen mayor consistencia en las respuestas con temperaturas más bajas sin sacrificar la precisión; por eso recomiendan valores más bajos para tareas de anotación.

Limitaciones del idioma

Como podemos ver en tabla 1, la mayoría de los estudios miden el rendimiento del etiquetado de los LLM en conjuntos de datos en inglés. Estudiar [7] explora tareas en francés, holandés e inglés y observa una disminución considerable en el rendimiento con los idiomas distintos del inglés. Actualmente, Los LLM funcionan mejor en inglés, pero se están desarrollando alternativas para extender sus beneficios a los usuarios que no hablan inglés. Dos de estas iniciativas incluyen: YugoGPT (para serbio, croata, bosnio, montenegrino) por Aleksa Gordić & Aya (101 idiomas diferentes) por Cohesión para la IA.

Razonamiento y comportamiento humanos (explicaciones del lenguaje natural)

Además de simplemente solicitar una etiqueta al LLM, también podemos pedirle que nos proporcione una explicación sobre la etiqueta elegida. Uno de los estudios [10] descubre que GPT arroja explicaciones que son comparables, si no más claras, que las producidas por los humanos. Sin embargo, también tenemos investigadores de Carnegie Mellon y Google que destacan que los LLM aún no son capaces de simulando la toma de decisiones humana y no mostrar comportamiento humano en sus elecciones. Encuentran que los modelos ajustados a las instrucciones muestran un comportamiento aún menos humano y dicen que los LLM no deberían usarse para sustituir a los humanos en el proceso de anotación. También advertiría el uso de explicaciones en lenguaje natural en esta etapa.

“La sustitución socava tres valores: la representación de los intereses de los participantes; inclusión y empoderamiento de los participantes en el proceso de desarrollo” — cita de Agnew (2023)

¿Se pueden utilizar modelos de lenguaje grande (LLM) para etiquetar datos? | de Maja Pavlovic | abril de 2024

ByEquipo de 7 minutos

Indicaciones: cero frente a pocos disparos

Incitación: Sensibilidad

Elección del modelo

Sesgo del modelo

Parámetro del modelo: temperatura

Limitaciones del idioma

Razonamiento y comportamiento humanos (explicaciones del lenguaje natural)

By Equipo de 7 minutos

Related Post

Diseño de un canal de inteligencia de facturas guiado por esquemas con lift-pdf para la extracción, validación y generación de libros mayores de cuentas por pagar

Las lecciones no enseñadas de la recuperación de RAG: el coseno no es la base

Mistral AI lanza Leanstral 1.5: un modelo de agente de código Apache-2.0 Lean 4 que resuelve 587 de 672 problemas de PutnamBench

You missed

Los físicos simularon un agujero negro en un laboratorio. Luego empezó a “evaporarse”. : Alerta científica

Carrera de Kart-Cross en La Rábita

Marissa Da’Nae aparentemente confirma el embarazo de Pooh Shiesty

Diseño de un canal de inteligencia de facturas guiado por esquemas con lift-pdf para la extracción, validación y generación de libros mayores de cuentas por pagar