Los modelos de lenguajes grandes (LLM) como BERT suelen estar previamente entrenados en corpus de dominios generales como Wikipedia y BookCorpus. Si los aplicamos a dominios más especializados como el médico, suele haber una caída en el rendimiento en comparación con los modelos. adaptado para esos dominios.
En este artículo, exploraremos cómo adaptar un LLM previamente capacitado como la base de Deberta al dominio médico utilizando la biblioteca HuggingFace Transformers. Específicamente, cubriremos una técnica eficaz llamada preentrenamiento intermedio en la que realizamos un preentrenamiento adicional del LLM con datos de nuestro dominio objetivo. Esto adapta el modelo al nuevo dominio y mejora su rendimiento.
Esta es una técnica simple pero efectiva para adaptar los LLM a su dominio y obtener mejoras significativas en el desempeño de las tareas posteriores.
Empecemos.
El primer paso en cualquier proyecto es preparar los datos. Dado que nuestro conjunto de datos pertenece al dominio médico, contiene los siguientes campos y muchos más:
Poner la lista completa de campos aquí es imposible, ya que hay muchos campos. Pero incluso este vistazo a los campos existentes nos ayuda a formar la secuencia de entrada para un LLM.
El primer punto a tener en cuenta es que la entrada debe ser una secuencia porque los LLM leen la entrada como secuencias de texto.
Para formar esto en una secuencia, podemos inyectar etiquetas especiales para decirle al LLM qué información viene a continuación. Considere el siguiente ejemplo: <patient>name:John, surname: Doer, patientID:1234, age:34</patient> el <patient> es una etiqueta especial que le dice a LLM que lo que sigue es información sobre un paciente.
Entonces formamos la secuencia de entrada de la siguiente manera:
Como puede ver, hemos inyectado cuatro etiquetas:
<patient> </patient>: contener…