Cerebras presenta la inferencia de IA más rápida del mundo para IA generativa: redefiniendo la velocidad, la precisión y la eficiencia para aplicaciones de IA de próxima generación en múltiples industrias

Cerebras Systems ha establecido un nuevo punto de referencia en inteligencia artificial (IA) con el lanzamiento de su revolucionaria solución de inferencia de IA. El anuncio ofrece una velocidad y una eficiencia sin precedentes en el procesamiento de modelos de lenguaje de gran tamaño (LLM). Esta nueva solución, denominada Inferencia de Cerebrasestá diseñado para satisfacer las crecientes y desafiantes demandas de las aplicaciones de IA, en particular aquellas que requieren respuestas en tiempo real y tareas complejas de varios pasos.

Velocidad y eficiencia inigualables

En el núcleo de Cerebras Inference se encuentra el motor de escala de wafer (WSE-3) de tercera generación, que impulsa la solución de inferencia de IA más rápida disponible actualmente. Esta tecnología ofrece unos notables 1800 tokens por segundo para los modelos Llama3.1 8B y 450 tokens por segundo para los modelos Llama3.1 70B. Estas velocidades son aproximadamente 20 veces más rápidas que las soluciones tradicionales basadas en GPU en entornos de nube a hiperescala. Este salto de rendimiento no se trata solo de velocidad bruta; también se produce a una fracción del costo, con un precio establecido en solo 10 centavos por millón de tokens para el modelo Llama 3.1 8B y 60 centavos por millón de tokens para el modelo Llama 3.1 70B.

La importancia de este logro no se puede subestimar. La inferencia, que implica ejecutar modelos de IA para hacer predicciones o generar texto, es un componente fundamental de muchas aplicaciones de IA. Una inferencia más rápida significa que las aplicaciones pueden proporcionar respuestas en tiempo real, lo que las hace más interactivas y efectivas. Esto es particularmente importante para las aplicaciones que dependen de grandes modelos de lenguaje, como los chatbots, los asistentes virtuales y los motores de búsqueda impulsados por IA.

Abordar el problema del ancho de banda de la memoria

Uno de los principales desafíos en la inferencia de IA es la necesidad de un gran ancho de banda de memoria. Los sistemas tradicionales basados en GPU a menudo necesitan ayuda, ya que requieren grandes cantidades de memoria para procesar cada token en un modelo de lenguaje. Por ejemplo, el modelo Llama3.1-70B, que tiene 70 mil millones de parámetros, requiere 140 GB de memoria para procesar un solo token. Para generar solo diez tokens por segundo, una GPU necesitaría 1,4 TB/s de ancho de banda de memoria, lo que supera con creces las capacidades de los sistemas GPU actuales.

Cerebras ha superado este obstáculo al integrar directamente una enorme cantidad de 44 GB de SRAM en el chip WSE-3, eliminando así la necesidad de memoria externa y aumentando significativamente el ancho de banda de la memoria. El WSE-3 ofrece un asombroso ancho de banda de memoria agregado de 21 petabytes por segundo, 7000 veces más que la GPU Nvidia H100. Este avance permite a Cerebras Inference manejar fácilmente modelos grandes, lo que proporciona una inferencia más rápida y precisa.

Manteniendo la precisión con precisión de 16 bits

Otro aspecto fundamental de Cerebras Inference es su compromiso con la precisión. A diferencia de algunos competidores que reducen la precisión de peso a 8 bits para lograr velocidades más rápidas, Cerebras conserva la precisión original de 16 bits durante todo el proceso de inferencia. Esto garantiza que los resultados del modelo sean lo más precisos posible, lo que es crucial para tareas que requieren altos niveles de precisión, como cálculos matemáticos y tareas de razonamiento complejas. Según Cerebras, sus modelos de 16 bits tienen una precisión hasta un 5 % superior a la de sus homólogos de 8 bits, lo que los convierte en una opción superior para los desarrolladores que necesitan velocidad y fiabilidad.

Alianzas estratégicas y expansión futura

Cerebras no solo se centra en la velocidad y la eficiencia, sino que también está construyendo un ecosistema sólido en torno a su solución de inferencia de IA. Se ha asociado con empresas líderes en la industria de la IA, incluidas Docker, LangChain, LlamaIndex y Weights & Biases, para brindarles a los desarrolladores las herramientas que necesitan para crear e implementar aplicaciones de IA de manera rápida y eficiente. Estas asociaciones son cruciales para acelerar el desarrollo de la IA y garantizar que los desarrolladores puedan acceder a los mejores recursos.

Cerebras planea ampliar su soporte para modelos aún más grandes, como los modelos Llama3-405B y Mistral Large. Esto consolidará a Cerebras Inference como la solución de referencia para los desarrolladores que trabajan en aplicaciones de IA de vanguardia. La empresa también ofrece su servicio de inferencia en tres niveles: gratuito, para desarrolladores y empresarial, que atienden a distintos usuarios, desde desarrolladores individuales hasta grandes empresas.

El impacto en las aplicaciones de IA

Las implicaciones del rendimiento de alta velocidad de Cerebras Inference se extienden mucho más allá de las aplicaciones de IA tradicionales. Al reducir drásticamente los tiempos de procesamiento, Cerebras permite flujos de trabajo de IA más complejos y mejora la inteligencia en tiempo real en los LLM. Esto podría revolucionar las industrias que dependen de la IA, desde la atención médica hasta las finanzas, al permitir procesos de toma de decisiones más rápidos y precisos. Por ejemplo, una inferencia de IA más rápida podría conducir a diagnósticos y recomendaciones de tratamientos más oportunos en la industria de la atención médica, lo que podría salvar vidas. Podría permitir el análisis de datos del mercado financiero en tiempo real, lo que permitiría decisiones de inversión más rápidas y mejor informadas. Las posibilidades son infinitas y Cerebras Inference está preparada para liberar un nuevo potencial en aplicaciones de IA en varios campos.

Conclusión

El lanzamiento por parte de Cerebras Systems de la solución de inferencia de IA más rápida del mundo representa un avance significativo en la tecnología de IA. Cerebras Inference está preparada para redefinir lo que es posible en IA al combinar velocidad, eficiencia y precisión incomparables. Innovaciones como Cerebras Inference desempeñarán un papel crucial en la configuración del futuro de la tecnología. Ya sea permitiendo respuestas en tiempo real en aplicaciones de IA complejas o apoyando el desarrollo de modelos de IA de próxima generación, Cerebras está a la vanguardia de este emocionante viaje.

Echa un vistazo a la Detalles, Blogy Pruébalo aquíTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

[Promotion] 🔔 El motor de búsqueda de IA más preciso, confiable y fácil de usar disponible

Cerebras presenta la inferencia de IA más rápida del mundo para IA generativa: redefiniendo la velocidad, la precisión y la eficiencia para aplicaciones de IA de próxima generación en múltiples industrias

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cómo utilizar NVIDIA Canary-1B-v2 para ASR, traducción y exportación automática de subtítulos SRT en Python

Dediqué una hora a una tarea de preprocesamiento de datos antes de preguntarle a Gemini

API compatible con OpenAI GLM-5.2: una guía práctica para el esfuerzo de razonamiento, la llamada a funciones y la recuperación de contexto prolongado

You missed

Las temperaturas alcanzan los abrasadores 49ºC en el centro de Palma mientras Mallorca se ve atrapada por un ‘Bloque Omega’

T-Pain reacciona después de que DoorDash lo confundiera con el jugador de la Copa Mundial Tim Payne

Cómo utilizar NVIDIA Canary-1B-v2 para ASR, traducción y exportación automática de subtítulos SRT en Python

Estos acuerdos anti-Prime le están dando a Amazon una buena rentabilidad