¿Se pueden utilizar modelos de lenguaje grande (LLM) para etiquetar datos?  |  de Maja Pavlovic |  abril de 2024

Indicaciones: cero frente a pocos disparos

Obtener respuestas significativas de los LLM puede ser todo un desafío. Entonces, ¿cuál es la mejor manera de solicitar a un LLM que etiquete sus datos? Como podemos ver desde tabla 1los estudios anteriores exploraron estímulos de disparo cero o de pocos disparos, o ambos. Tiro cero La indicación espera una respuesta del LLM sin haber visto ningún ejemplo en la indicación. Mientras pocos tiros Las indicaciones incluyen varios ejemplos en la propia solicitud para que el LLM sepa cómo es la respuesta deseada:

Cero versus indicaciones de pocos disparos | fuente de ejemplo (amitsangani) | imagen por autor

Los estudios difieren en sus puntos de vista sobre qué enfoque arroja mejores resultados. Algunos recurren a indicaciones breves en sus tareas, otros a indicaciones nulas. Por lo tanto, es posible que desee explorar qué funciona mejor para su caso de uso y modelo particular.

Si se pregunta cómo empezar con buenas indicaciones Sander Schulhoff & Shyamal H Anadkat Haber creado AprenderPrompting que puede ayudarte con los conceptos básicos y también con técnicas más avanzadas.

Incitación: Sensibilidad

Los LLM son sensibles a modificaciones menores en el mensaje. Cambiar una palabra de su mensaje puede afectar la respuesta. Si desea tener en cuenta esa variabilidad hasta cierto punto, podría abordarla como en el estudio. [3]. Primero, dejaron que un experto en la tarea les proporcionara la indicación inicial. Luego, usando GPT, generan 4 más con significado similar y promedian los resultados de las 5 indicaciones. O también podrías considerar alejarte de las indicaciones escritas a mano e intentar reemplazarlas con firmas dejándolo a DSPy para optimizar el mensaje para usted como se muestra en Leonie Monigattipublicación del blog.

Elección del modelo

¿Qué modelo debería elegir para etiquetar su conjunto de datos? Hay algunos factores a considerar. Veamos brevemente algunas consideraciones clave:

  • Código abierto versus código cerrado: ¿Optas por el último modelo con mejor rendimiento? ¿O es más importante para usted la personalización de código abierto? Deberá pensar en aspectos como su presupuesto, requisitos de rendimiento, preferencias de personalización y propiedad, necesidades de seguridad y requisitos de soporte de la comunidad.
  • Barandillas: Los LLM cuentan con barreras de seguridad para evitar que respondan con contenido no deseado o dañino. Si su tarea involucra contenido confidencial, los modelos pueden negarse a etiquetar sus datos. Además, los LLM varían en cuanto a la solidez de sus salvaguardias, por lo que debe explorarlas y compararlas para encontrar la más adecuada para su tarea.
  • Tamaño del modelo: Los LLM vienen en diferentes tamaños y los modelos más grandes pueden funcionar mejor, pero también requieren más recursos informáticos. Si prefiere utilizar LLM de código abierto y tiene una computación limitada, podría considerar cuantificación. En el caso de los modelos de código cerrado, los modelos más grandes actualmente tienen costos más altos por mensaje asociado. ¿Pero es siempre mejor lo más grande?

Sesgo del modelo

Según estudio [3] más grande, ajustado a las instrucciones³ Los modelos muestran un rendimiento de etiquetado superior. Sin embargo, el estudio no evalúa el sesgo en sus resultados. Otro esfuerzo de investigación muestra que el sesgo tiende a aumentar tanto con la escala como con los contextos ambiguos. Varios estudios también advierten sobre las tendencias de izquierda y la capacidad limitada para representar con precisión las opiniones de los grupos minoritarios (por ejemplo, personas mayores o religiones subrepresentadas). En general, los LLM actuales muestran considerables prejuicios culturales y responden con opiniones estereotipadas de las personas minoritarias. Dependiendo de su tarea y sus objetivos, estas son cosas a considerar en cada cronograma de su proyecto.

“Por defecto, las respuestas del LLM tienden a ser más similares a las opiniones de ciertas poblaciones, como las de Estados Unidos y algunos países europeos y sudamericanos” – cita del estudio [2]

Parámetro del modelo: temperatura

Un parámetro comúnmente mencionado en la mayoría de los estudios en tabla 1 es el parámetro de temperatura, que ajusta la “creatividad” de los resultados del LLM. Estudios [5] y [6] experimente con temperaturas más altas y más bajas y descubra que los LLM tienen mayor consistencia en las respuestas con temperaturas más bajas sin sacrificar la precisión; por eso recomiendan valores más bajos para tareas de anotación.

Limitaciones del idioma

Como podemos ver en tabla 1, la mayoría de los estudios miden el rendimiento del etiquetado de los LLM en conjuntos de datos en inglés. Estudiar [7] explora tareas en francés, holandés e inglés y observa una disminución considerable en el rendimiento con los idiomas distintos del inglés. Actualmente, Los LLM funcionan mejor en inglés, pero se están desarrollando alternativas para extender sus beneficios a los usuarios que no hablan inglés. Dos de estas iniciativas incluyen: YugoGPT (para serbio, croata, bosnio, montenegrino) por Aleksa Gordić & Aya (101 idiomas diferentes) por Cohesión para la IA.

Razonamiento y comportamiento humanos (explicaciones del lenguaje natural)

Además de simplemente solicitar una etiqueta al LLM, también podemos pedirle que nos proporcione una explicación sobre la etiqueta elegida. Uno de los estudios [10] descubre que GPT arroja explicaciones que son comparables, si no más claras, que las producidas por los humanos. Sin embargo, también tenemos investigadores de Carnegie Mellon y Google que destacan que los LLM aún no son capaces de simulando la toma de decisiones humana y no mostrar comportamiento humano en sus elecciones. Encuentran que los modelos ajustados a las instrucciones muestran un comportamiento aún menos humano y dicen que los LLM no deberían usarse para sustituir a los humanos en el proceso de anotación. También advertiría el uso de explicaciones en lenguaje natural en esta etapa.

“La sustitución socava tres valores: la representación de los intereses de los participantes; inclusión y empoderamiento de los participantes en el proceso de desarrollo” — cita de Agnew (2023)