Hoy nos complace anunciar que AI MistralEl modelo de base de gran gran base (FM) de Pixtral está generalmente disponible en Roca madre de Amazon. Con este lanzamiento, ahora puede acceder al modelo multimodal de clase fronteriza de Mistral para construir, experimentar y escalar de manera responsable sus ideas generativas de IA en AWS. AWS es el primer proveedor de nube importante en entregar PixTral grande como un modelo sin servidor totalmente administrado.
En esta publicación, discutimos las características de Pixtral grande y sus posibles casos de uso.
Descripción general de pixtral grande
Pixtral grande es un modelo multimodal avanzado desarrollado por Mistral AI, con 124 mil millones de parámetros. Este modelo combina un potente decodificador multimodal de 123 mil millones de parámetros con un codificador especializado de visión de 1 billón de parámetros. Puede manejar a la perfección tareas visuales y textuales complejas mientras se conserva las capacidades excepcionales de procesamiento del lenguaje de su predecesor, Mistral grande 2.
Una característica distintiva de Pixtral Big es su ventana de contexto expansivo de 128,000 tokens, lo que le permite procesar simultáneamente múltiples imágenes junto con datos textuales extensos. Esta capacidad hace que sea particularmente efectiva para analizar documentos, gráficos detallados, gráficos e imágenes naturales, acomodando una amplia gama de aplicaciones prácticas.
Las siguientes son capacidades clave de Pixtral grande:
- Análisis de texto multilingüe – Pixtral grande interpreta y extrae con precisión la información escrita en múltiples idiomas de imágenes y documentos. Esto es particularmente beneficioso para las tareas como el procesamiento de recibos o facturas de procesamiento automáticamente, donde puede realizar cálculos y evaluaciones conscientes del contexto, simplificando procesos como el seguimiento de gastos o el análisis financiero.
- Interpretación de la visualización de datos y de datos – El modelo demuestra un dominio excepcional en la comprensión de las representaciones complejas de datos visuales. Puede identificar sin esfuerzo tendencias, anomalías y puntos de datos clave dentro de las visualizaciones gráficas. Por ejemplo, Pixtral Big es altamente efectivo para detectar irregularidades o tendencias perspicaces dentro de las curvas de pérdida de capacitación o métricas de rendimiento, lo que mejora la precisión de la toma de decisiones basada en datos.
- Análisis visual general y comprensión contextual – Pixtral Large es experto en analizar datos visuales generales, incluidas capturas de pantalla y fotografías, extraer información matizada y responder de manera efectiva a las consultas basadas en el contenido de la imagen. Esta capacidad amplía significativamente su usabilidad, lo que le permite admitir escenarios variados, desde explicar contextos visuales en presentaciones hasta automatizar la moderación de contenido y la recuperación de imágenes contextuales.
Los detalles adicionales del modelo incluyen:
- Pixtral grande está disponible en el
eu-north-1
yus-west-2
Regiones de AWS - La inferencia de región cruzada está disponible para las siguientes regiones:
us-east-2
us-west-2
us-east-1
eu-west-1
eu-west-3
eu-north-1
eu-central-1
- ID de modelo:
mistral.pixtral-large-2502-v1:0
- Ventana de contexto:
128,000
Comience con Pixtral grande en Amazon Bedrock
Si es nuevo en usar modelos de IA Mistrales, puede solicitar acceso al modelo en el Consola de roca en Amazon. Para más información, ver Access a los modelos de Foundation Bedrock de Amazon.
Para probar pixtral grande en la consola de roca madre de Amazon, elija Texto o Charlar bajo Parques infantiles En el panel de navegación. Entonces, elige Modelo seleccionado y elegir Mistral como la categoría y Pixtral grande como el modelo.
Eligiendo Ver APItambién puede acceder al modelo utilizando ejemplos de código en el Interfaz de línea de comandos de AWS (AWS CLI) y AWS SDKS. Puede usar una ID de modelo como mistral.mistral-large-2407-v1:0
como se muestra en el siguiente código:
En las siguientes secciones, nos sumergimos en las capacidades de pixtral grande.
Casos de uso pixtral grandes
En esta sección, proporcionamos casos de uso de ejemplo de pixtral grande utilizando indicaciones de muestra. Debido a que Pixtral grande se basa en Mistral grande 2, incluye un modo de salida JSON nativo. Esta característica permite a los desarrolladores recibir las respuestas del modelo en un formato estructurado y simple de leer, que puede integrarse perfectamente en varias aplicaciones y sistemas. Debido a que JSON es un estándar de intercambio de datos ampliamente utilizado, esta funcionalidad optimiza el proceso de trabajar con las salidas del modelo, lo que lo hace más accesible y práctico para los desarrolladores en diferentes industrias y casos de uso. Para obtener más información sobre la generación de JSON utilizando la API Converse, consulte Generando JSON con la API Converse Bedrock Amazon.
Además, Pixtral Big admite el API Converse y Uso de herramientas. Al utilizar la API de rock de Amazon, puede otorgar el modelo de acceso a las herramientas que ayudan a generar respuestas a los mensajes que envía.
Generar código SQL a partir de un diagrama de relación de entidad de base de datos
Un diagrama de relación entre entidades (ER) es una representación visual utilizada en el diseño de la base de datos para ilustrar las relaciones entre las entidades y sus atributos. Es una herramienta crucial para el modelado conceptual, ayudando a los desarrolladores y analistas a comprender y comunicar la estructura de los datos dentro de una base de datos.
Este ejemplo prueba la capacidad del modelo para generar postgresql compatible SQL CREATE TABLE
declaraciones para crear entidades y sus relaciones.
Usamos el siguiente mensaje:
Ingresamos el siguiente diagrama ER.
La respuesta del modelo es la siguiente:
Convertir la jerarquía de la organización en texto estructurado
Pixtral grande tiene las capacidades para comprender la estructura de la organización y generar salida estructurada. Vamos a probarlo con una estructura de organización.
Usamos el siguiente mensaje:
Ingresamos la siguiente imagen de estructura de organización.
La respuesta del modelo es la siguiente:
Comprensión y razonamiento del gráfico
Pixtral grande tiene la capacidad de comprender y razonar sobre gráficos y gráficos. Probemos PixTral grande con una visualización de la parte de la propiedad de la motocicleta por país en todo el mundo.
Usamos el siguiente mensaje:
Ingresamos la siguiente imagen.

Por Dennis Bratland-Trabajo propio, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=15186498
La respuesta del modelo es la siguiente:
Conclusión
En esta publicación, demostramos cómo comenzar con el modelo PixTral grande en Amazon Bedrock. El modelo multimodal grande Pixtral le permite abordar una variedad de casos de uso, como comprensión de documentos, razonamiento lógico, reconocimiento de escritura a mano, comparación de imágenes, extracción de entidad, extraer datos estructurados de imágenes escaneadas y generación de subtítulos. Estas capacidades pueden mejorar la productividad en numerosas aplicaciones empresariales, incluido el comercio electrónico (minorista), el marketing, los servicios financieros y más allá.
Pixtral FM de Mistral AI ahora está disponible en Amazon Bedrock. Para comenzar con Pixtral Large en Amazon Bedrock, visite el Consola de roca en Amazon.
¿Curioso para explorar más? Echa un vistazo al Reposition. Para obtener más información sobre los modelos de IA Mistral disponibles en Amazon Bedrock, consulte Modelos Mistral AI ahora disponibles en Amazon Bedrock.
Sobre los autores
Deepesh Dhapola es un arquitecto de soluciones senior en AWS India, especializada en ayudar a los servicios financieros y los clientes de FinTech optimizan y escala sus aplicaciones en la nube de AWS. Con un fuerte enfoque en las tecnologías de IA de tendencia, incluidas la IA generativa, los agentes de IA y el Protocolo de contexto del modelo (MCP), Deepesh aprovecha su experiencia en el aprendizaje automático para diseñar soluciones innovadoras, escalables y seguras. Apasionado por el potencial transformador de la IA, explora activamente los avances de vanguardia para impulsar la eficiencia y la innovación para los clientes de AWS. Fuera del trabajo, Deepesh disfruta pasar tiempo de calidad con su familia y experimentar con diversas creaciones culinarias.
Andre Boaventura es un arquitecto principal de soluciones de IA/ML en AWS, especializada en IA generativas y soluciones de aprendizaje automático escalable. Con más de 25 años en la industria de software de alta tecnología, tiene una profunda experiencia en el diseño y la implementación de aplicaciones de IA utilizando servicios de AWS como Amazon Bedrock, Amazon Sagemaker y Amazon Q. Andre trabaja en estrecha colaboración con los integradores de sistemas globales (GSI) y los clientes en las industrias a las soluciones de AI/ML de recorte para impulsar el valor comercial.
Preston Tuggle es un arquitecto de soluciones especialistas en el Sr. con el equipo de proveedores de modelos de terceros en AWS. Se enfoca en trabajar con proveedores de modelos en Amazon Bedrock y Amazon Sagemaker, ayudándoles a acelerar sus estrategias de mercado a través de iniciativas de escala técnica y participación del cliente
Shane Rai es un especialista principal de Genai de la Organización Especialista Mundial de AWS (WWSO). Trabaja con clientes en todas las industrias para resolver sus necesidades comerciales más apremiantes e innovadoras utilizando la amplitud de los servicios de IA/ML basados en la nube de AWS, incluidas las ofertas de modelos de proveedores de modelos de fundación de primer nivel.
Ankit agarwal es un gerente de producto técnico senior en Amazon Bedrock, donde opera en la intersección de las necesidades del cliente y los proveedores de modelos de fundación. Lleva iniciativas a modelos de vanguardia a bordo en Amazon Bedrock Servidor sin servidor e impulsa el desarrollo de características centrales que mejoran las capacidades de la plataforma.
Niithiyn vijeaswaran es un arquitecto generativo de soluciones especialistas en IA con el equipo de ciencias de modelos de terceros en AWS. Su área de enfoque son los aceleradores de AWS AI (AWS Neuron). Tiene una licenciatura en informática y bioinformática.
Aris tsakpinis es un arquitecto de soluciones especializadas para la IA generativa centrada en los modelos de código abierto en el lecho de roca de Amazon y el ecosistema de código abierto de IA generativo más amplio. Junto con su papel profesional, está cursando un doctorado en ingeniería de aprendizaje automático en la Universidad de Regensburg, donde su investigación se centra en el procesamiento del lenguaje natural aplicado en dominios científicos.