mitiga - 7 minutos

Enseñar a la IA que diga ‘No sé’: un nuevo conjunto de datos mitiga las alucinaciones de la fina de refuerzo

June 6, 2025 Equipo de 7 minutos

Refuerzo Finetuning utiliza señales de recompensa para guiar el modelo de lenguaje grande hacia un comportamiento deseable. Este método agudiza la capacidad del modelo para producir salidas lógicas y estructuradas…

Inteligencia artificial

Reforzamiento de la curiosidad Aprendizaje de la retroalimentación humana CD-RLHF: un marco de IA que mitiga la compensación de alineación de diversidad en los modelos de idiomas

January 31, 2025 Equipo de 7 minutos

Los modelos de idiomas grandes (LLM) se han vuelto cada vez más dependientes del aprendizaje de refuerzo de la retroalimentación humana (RLHF) para ajustar en diversas aplicaciones, incluida la generación…

Inteligencia artificial

FAMO: un método de optimización rápida para el aprendizaje multitarea (MTL) que mitiga los gradientes conflictivos utilizando espacio y tiempo O(1)

May 5, 2024 Equipo de 7 minutos

El aprendizaje multitarea (MLT) implica entrenar un único modelo para realizar múltiples tareas simultáneamente, aprovechando la información compartida para mejorar el rendimiento. Si bien es beneficiosa, MLT plantea desafíos en…

Inteligencia artificial

Investigadores de Microsoft proponen un nuevo modelo de difusión de texto (TREC) que mitiga la degradación con condicionamiento reforzado y la desalineación mediante escala de varianza consciente del tiempo

March 10, 2024 Equipo de 7 minutos

En el campo en constante evolución de la lingüística computacional, la búsqueda de modelos que puedan generar sin problemas textos similares a los humanos ha llevado a los investigadores a…

Inteligencia artificial

Investigadores de NVIDIA y la Universidad de Maryland proponen ODIN: una técnica de desenredado de recompensas que mitiga la piratería en el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)

February 25, 2024 Equipo de 7 minutos

El conocido chatbot basado en inteligencia artificial (IA), es decir, ChatGPT, que se ha construido sobre la arquitectura transformadora de GPT, utiliza la técnica de aprendizaje reforzado a partir de…

Enseñar a la IA que diga ‘No sé’: un nuevo conjunto de datos mitiga las alucinaciones de la fina de refuerzo

Reforzamiento de la curiosidad Aprendizaje de la retroalimentación humana CD-RLHF: un marco de IA que mitiga la compensación de alineación de diversidad en los modelos de idiomas

FAMO: un método de optimización rápida para el aprendizaje multitarea (MTL) que mitiga los gradientes conflictivos utilizando espacio y tiempo O(1)

Investigadores de Microsoft proponen un nuevo modelo de difusión de texto (TREC) que mitiga la degradación con condicionamiento reforzado y la desalineación mediante escala de varianza consciente del tiempo

Investigadores de NVIDIA y la Universidad de Maryland proponen ODIN: una técnica de desenredado de recompensas que mitiga la piratería en el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)

You missed

Baidu lanza OCR ilimitado, un modelo 3B que mantiene plana la caché KV para el análisis de documentos largos

El gusano barrenador podría ser la primera especie objeto de un ‘impulso de extinción’

El XV Plan Quinquenal de China: lo que está en juego en la economía mundial

Un resumen de las últimas novedades del jueves

Tag: mitiga

You missed