Por qué el modelo de IA de Deepseek se convirtió en la aplicación mejor calificada en los EE. UU.

Por qué el modelo de IA de Deepseek se convirtió en la aplicación mejor calificada en los EE. UU.

Una nueva empresa china ha sorprendido a la industria de la tecnología, y los mercados financieros, con un asistente de IA más barato y de baja tecnología que coincide con el estado de la técnica

El asistente de inteligencia artificial de Deepseek hizo grandes olas el lunes, convirtiéndose en la aplicación mejor calificada en la tienda de Apple y enviando acciones tecnológicas a una caída a la baja. ¿Por qué se trata de alboroto?

La nueva empresa china, Deepseek, sorprendió a la industria tecnológica con un nuevo modelo que rivaliza con las habilidades de OpadaiEl modelo más reciente, con mucha menos inversión y utilizando chips de capacidad reducida. Los Estados Unidos prohíben las exportaciones de chips informáticos de última generación a China y limita las ventas de equipos de fabricación de chips. Según los informes, Deepseek, con sede en la ciudad de Hangzhou en el este de Chinese, tenía una reserva de chips Nvidia A100 de alto rendimiento de los tiempos antes de la prohibición, por lo que sus ingenieros podrían haber usado los que desarrollaron el modelo. Pero en un avance clave, la puesta en marcha dice que en su lugar usó muchas chips NVIDIA H800 de menor potencia para entrenar el nuevo modelo, denominado Deepseek-R1.

“Hemos visto hasta ahora que el éxito de las grandes empresas tecnológicas que trabajan en IA se midió en cuánto dinero recaudaron, no necesariamente en lo que realmente era la tecnología”, dice Ashlesha Nesarikar, CEO de la compañía de IA, Plano Intelligence, Inc. . “Creo que prestaremos mucha más atención a qué tecnología está sustentando los diferentes productos de estas compañías”.


Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado con suscripción. Al comprar una suscripción, está ayudando a garantizar el futuro de las historias impactantes sobre los descubrimientos e ideas que dan forma a nuestro mundo hoy.


En las pruebas comunes de IA en matemáticas y codificación, Deepseek-R1 coincidió con las decenas del modelo O1 Open’s O1, según VentureBeat. Las empresas estadounidenses no revelan el costo de capacitar a sus propios modelos de idiomas grandes (LLM), los sistemas que sustentan chatbots populares como Chatgpt. Pero el CEO de Operai Sam Altman le dijo a una audiencia en el MIT en 2023 Ese chatgpt-4 de entrenamiento cuesta más de $ 100 millones. Deepseek-R1 es gratuito para que los usuarios los descarguen, mientras que la versión comparable de ChatGPT cuesta $ 200 al mes.

El número de $ 6 millones de Deepseek no refleja necesariamente el costo de construir un LLM desde cero, dice Nesarikar; Ese costo puede representar un ajuste de esta última versión. Sin embargo, dice, la eficiencia energética mejorada de la modelo haría que la IA sea más accesible para más personas en más industrias. El aumento de la eficiencia podría ser una buena noticia cuando se trata de IA ambiental Impacto, como el costo de cálculo de generar nuevos datos con un LLM es cuatro a cinco veces más alto que una consulta típica del motor de búsqueda.

Debido a que requiere menos potencia computacional, el costo de ejecutar Deepseek-R1 es una décima parte del costo de competidores similares, dice Hanchang Cao, profesor asistente entrante en sistemas de información y gestión de operaciones en la Universidad de Emory. “Para los investigadores académicos o las nuevas empresas, esta diferencia en el costo realmente significa mucho”, dice Cao.

Deepseek logró su eficiencia de varias maneras, dice Anil Ananthaswamyautor de Por qué las máquinas aprenden: las elegantes matemáticas detrás de la IA moderna. El modelo tiene 670 mil millones de parámetros o variables Aprende de durante el entrenamientolo que lo convierte en el modelo de lenguaje grande más grande hasta el momento, explica Ananthaswamy. Pero el modelo utiliza una arquitectura llamada “mezcla de expertos” para que solo se active una fracción relevante de estos parámetros, tens de miles de millones en lugar de cientos de miles de millones, para cualquier consulta dada. Esto reduce los costos informáticos. Deepseek LLM también utiliza un método llamado atención latente de múltiples cabezas; En lugar de predecir una respuesta de palabra por palabra, genera varias palabras a la vez.

El modelo difiere aún más de otros como O1 en cómo refuerza el aprendizaje durante la capacitación. Si bien muchos LLM tienen un modelo “crítico” externo que se ejecuta junto a ellos, corrigiendo los errores y empujando el LLM hacia respuestas verificadas, Deepseek-R1 usa un conjunto de reglas internas al modelo para enseñarle cuál de las posibles respuestas genera es mejor. “Deepseek ha simplificado ese proceso”, dice Anasthaswamy.

Otro aspecto importante de Deepseek-R1 es que la compañía ha hecho el código detrás del producto de código abierto, dice Anasthaswamy. (Los datos de capacitación siguen siendo propietarios.) Esto significa que las reclamaciones de la Compañía se pueden verificar. Si el modelo es tan computacionalmente eficiente como las afirmaciones de Deepseek, dice, probablemente abrirá nuevas vías para los investigadores que usan IA en su trabajo para hacerlo de manera más rápida y económica. También permitirá más investigación sobre el funcionamiento interno de los propios LLM.

“Una de las grandes cosas ha sido esta división que se ha abierto entre la academia y la industria porque la academia no ha podido trabajar con estos modelos realmente grandes o investigar de ninguna manera significativa”, dice Anasthaswamy. “Pero algo como esto, está al alcance de la academia ahora, porque tienes el código”.