17 de septiembre de 2025
4 Leer mínimo
Secretos de Deepseek AI Modelo revelado en papel histórico
El primer estudio revisado por pares del modelo de AI Deepseek muestra cómo una empresa de puesta en marcha china hizo el LLM de mercado de mercado por $ 300,000
Deepseek dice que su modelo R1 no aprendió copiando ejemplos generados por otros LLM.
Iain Masterton/Alamy Live News
El éxito de Deepseek’s poderoso modelo de inteligencia artificial (AI) R1 – que hizo El mercado de valores de los Estados Unidos cae en picado Cuando se lanzó en enero, no dependía de recibir capacitación en la producción de sus rivales, dijeron investigadores de la firma china. La declaración llegó en documentos publicados junto con una versión revisada por pares del modelo R1, publicado hoy en Naturaleza.
R1 está diseñado para sobresalir en tareas de ‘razonamiento’ como las matemáticas y la codificación, y es un rival más barato de las herramientas desarrolladas por las empresas de tecnología estadounidenses. Como modelo de ‘peso abierto’, está disponible para que cualquiera lo descargue y es el modelo más popular en la plataforma de la comunidad AI que abraza a la fecha, ya que se ha descargado 10.9 millones de veces.
El documento actualiza un Preimpresión lanzada en eneroque describe cómo Deepseek aumentó un modelo de lenguaje grande estándar (LLM) para abordar las tareas de razonamiento. Su material complementario revela por primera vez cuánto costo R1 entrenar: el equivalente de solo US $ 294,000. Esto viene además de los $ 6 millones más o menos que la compañía, con sede en Hangzhou, gastada para hacer la base de LLM en la que se basa R1, pero la cantidad total sigue siendo sustancialmente menor que las decenas de millones de dólares en los que se cree que los modelos rivales han costado. Deepseek dice que R1 fue entrenado principalmente en los chips H800 de Nvidia, que en 2023 tuvo prohibido ser vendido a China bajo los controles de exportación de los Estados Unidos.
Sobre el apoyo al periodismo científico
Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado con suscripción. Al comprar una suscripción, está ayudando a garantizar el futuro de las historias impactantes sobre los descubrimientos e ideas que dan forma a nuestro mundo hoy.
Revisión rigurosa
Se cree que R1 es el primer LLM importante en someterse al proceso de revisión por pares. “Este es un precedente muy bienvenido”, dice Lewis Tunstall, un ingeniero de aprendizaje automático de Hugging Face que revisó el Naturaleza papel. “Si no tenemos esta norma de compartir una gran parte de este proceso públicamente, se hace muy difícil evaluar si estos sistemas representan riesgos o no”.
En respuesta a los comentarios de revisión por pares, el equipo de Deepseek redujo la antropomorfización en sus descripciones y agregó aclaraciones de detalles técnicos, incluidos los tipos de datos en los que el modelo estaba entrenado y su seguridad. “Pasar por un riguroso proceso de revisión por pares ciertamente ayuda a verificar la validez y la utilidad del modelo”, dice Huan Sun, investigador de IA en la Universidad Estatal de Ohio en Columbus. “Otras empresas deberían hacer lo mismo”.
La principal innovación de Deepseek era utilizar un tipo automatizado del enfoque de prueba y error conocido como puro refuerzo de refuerzo para crear R1. El proceso recompensó el modelo por alcanzar las respuestas correctas, en lugar de enseñarle a seguir ejemplos de razonamiento seleccionado por humanos. La compañía dice que así es como su modelo aprendió sus propias estrategias de razonamiento, como cómo verificar sus trabajos sin seguir tácticas prescritas humanas. Para aumentar la eficiencia, el modelo también obtuvo sus propios intentos utilizando estimaciones, en lugar de emplear un algoritmo separado para hacerlo, una técnica conocida como optimización de políticas relativas grupales.
El modelo ha sido “bastante influyente” entre los investigadores de IA, dice Sun. “Casi todos funcionan en 2025 hasta ahora que lleva a cabo el aprendizaje de refuerzo en LLMS podría haberse inspirado en R1 de una forma u otra”.
Técnica de entrenamiento
Los informes de los medios de comunicación en enero sugirieron que los investigadores de Operai, la compañía, con sede en San Francisco, California, que crearon ChatGPT y la ‘O’ serie de modelos de razonamientopensó que Deepseek había usado salidas de los modelos Operai para entrenar R1, un método que podría haber acelerado las habilidades de un modelo mientras usaba menos recursos.
Deepseek no ha publicado sus datos de capacitación como parte del documento. Pero, en los intercambios con los árbitros, los investigadores de la firma declararon que R1 no aprendió copiando ejemplos de razonamiento que fueron generados por modelos Operai. Sin embargo, reconocieron que, como la mayoría de los otros LLM, el modelo base de R1 estaba capacitado en la web, por lo que habrá ingerido cualquier contenido generado por IA que ya esté en Internet.
Esta refutación es “tan convincente como lo que podríamos ver en cualquier publicación”, dice Sun. Tunstall agrega que aunque no puede estar 100% seguro de que R1 no estaba entrenado en ejemplos de OpenAI, los intentos de replicación de otros laboratorios sugieren que la receta de Deepseek para el razonamiento probablemente sea lo suficientemente buena como para no necesitar hacer esto. “Creo que la evidencia ahora es bastante clara de que puedes obtener un rendimiento muy alto solo usando un aprendizaje de refuerzo puro”, dice.
Para los investigadores, R1 sigue siendo muy competitivo, dice Sun. En un desafío completar tareas científicas, como analizar y visualizar datos, conocidos como Bancada de cienciaSun y sus colegas descubrieron que, aunque R1 no era el primero de precisión, fue uno de los mejores modelos en términos de capacidad de equilibrio con el costo.
Otros investigadores ahora están tratando de aplicar los métodos utilizados para crear R1 para mejorar las habilidades de razonamiento de los LLM existentes, así como extenderlos a dominios más allá de las matemáticas y la codificación, dice Tunstall. De esa manera, agrega, R1 ha “iniciado una revolución”.
Este artículo se reproduce con permiso y fue Primero publicado el 17 de septiembre de 2025.
Es hora de defender la ciencia
Si disfrutaste este artículo, me gustaría pedir tu apoyo. Científico americano ha servido como defensor de la ciencia y la industria durante 180 años, y en este momento puede ser el momento más crítico en esa historia de dos siglos.
He sido un Científico americano Suscriptor desde que tenía 12 años, y ayudó a dar forma a la forma en que miro el mundo. Sciam Siempre me educa y me deleita, e inspira una sensación de asombro por nuestro vasto y hermoso universo. Espero que también lo haga por ti.
Si usted suscribirse a Científico americanousted ayuda a asegurarse de que nuestra cobertura se centre en una investigación y descubrimiento significativos; que tenemos los recursos para informar sobre las decisiones que amenazan a los laboratorios en los Estados Unidos; y que apoyamos a los científicos en ciernes y que trabajan en un momento en que el valor de la ciencia en sí mismo a menudo no se reconoce.
A cambio, obtienes noticias esenciales, podcasts cautivadoresInfografía brillante, boletines no puede perdervideos de must-observación, Juegos desafiantesy la mejor escritura e informes del mundo de la ciencia. Incluso puedes regalarle a alguien una suscripción.
Nunca ha habido un momento más importante para que podamos ponernos de pie y mostrar por qué la ciencia importa. Espero que nos apoyes en esa misión.