Adaptación de dominio de un modelo de lenguaje grande | de Mina Ghashami

Adapte un modelo previamente entrenado a un nuevo dominio usando HuggingFace

Los modelos de lenguajes grandes (LLM) como BERT suelen estar previamente entrenados en corpus de dominios generales como Wikipedia y BookCorpus. Si los aplicamos a dominios más especializados como el médico, suele haber una caída en el rendimiento en comparación con los modelos. adaptado para esos dominios.

En este artículo, exploraremos cómo adaptar un LLM previamente capacitado como la base de Deberta al dominio médico utilizando la biblioteca HuggingFace Transformers. Específicamente, cubriremos una técnica eficaz llamada preentrenamiento intermedio en la que realizamos un preentrenamiento adicional del LLM con datos de nuestro dominio objetivo. Esto adapta el modelo al nuevo dominio y mejora su rendimiento.

Esta es una técnica simple pero efectiva para adaptar los LLM a su dominio y obtener mejoras significativas en el desempeño de las tareas posteriores.

Empecemos.

El primer paso en cualquier proyecto es preparar los datos. Dado que nuestro conjunto de datos pertenece al dominio médico, contiene los siguientes campos y muchos más:

Poner la lista completa de campos aquí es imposible, ya que hay muchos campos. Pero incluso este vistazo a los campos existentes nos ayuda a formar la secuencia de entrada para un LLM.

El primer punto a tener en cuenta es que la entrada debe ser una secuencia porque los LLM leen la entrada como secuencias de texto.

Para formar esto en una secuencia, podemos inyectar etiquetas especiales para decirle al LLM qué información viene a continuación. Considere el siguiente ejemplo: <patient>name:John, surname: Doer, patientID:1234, age:34</patient> el <patient> es una etiqueta especial que le dice a LLM que lo que sigue es información sobre un paciente.

Entonces formamos la secuencia de entrada de la siguiente manera:

Como puede ver, hemos inyectado cuatro etiquetas:

<patient> </patient>: contener…

Adaptación de dominio de un modelo de lenguaje grande | de Mina Ghashami | noviembre de 2023

ByEquipo de 7 minutos

Adapte un modelo previamente entrenado a un nuevo dominio usando HuggingFace

By Equipo de 7 minutos

Related Post

Cómo construir un sistema de enrutamiento LLM económico con NadirClaw utilizando la clasificación de indicaciones locales y el cambio de modelo Gemini

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

You missed

¿Plutón es un planeta? Eso es hacer la pregunta equivocada.

Britney Spears detalla el “viaje espiritual” después del arresto

Antiguas megaestructuras científicas soviéticas capturadas en impactantes fotografías

Estos demócratas no deberían tener ninguna posibilidad de ganar, pero la tienen