Hoy nos complace anunciar que AI MistralEl modelo de base de gran gran base (FM) de Pixtral está generalmente disponible en Roca madre de Amazon. Con este lanzamiento, ahora puede acceder al modelo multimodal de clase fronteriza de Mistral para construir, experimentar y escalar de manera responsable sus ideas generativas de IA en AWS. AWS es el primer proveedor de nube importante en entregar PixTral grande como un modelo sin servidor totalmente administrado.

En esta publicación, discutimos las características de Pixtral grande y sus posibles casos de uso.

Descripción general de pixtral grande

Pixtral grande es un modelo multimodal avanzado desarrollado por Mistral AI, con 124 mil millones de parámetros. Este modelo combina un potente decodificador multimodal de 123 mil millones de parámetros con un codificador especializado de visión de 1 billón de parámetros. Puede manejar a la perfección tareas visuales y textuales complejas mientras se conserva las capacidades excepcionales de procesamiento del lenguaje de su predecesor, Mistral grande 2.

Una característica distintiva de Pixtral Big es su ventana de contexto expansivo de 128,000 tokens, lo que le permite procesar simultáneamente múltiples imágenes junto con datos textuales extensos. Esta capacidad hace que sea particularmente efectiva para analizar documentos, gráficos detallados, gráficos e imágenes naturales, acomodando una amplia gama de aplicaciones prácticas.

Las siguientes son capacidades clave de Pixtral grande:

  • Análisis de texto multilingüe – Pixtral grande interpreta y extrae con precisión la información escrita en múltiples idiomas de imágenes y documentos. Esto es particularmente beneficioso para las tareas como el procesamiento de recibos o facturas de procesamiento automáticamente, donde puede realizar cálculos y evaluaciones conscientes del contexto, simplificando procesos como el seguimiento de gastos o el análisis financiero.
  • Interpretación de la visualización de datos y de datos – El modelo demuestra un dominio excepcional en la comprensión de las representaciones complejas de datos visuales. Puede identificar sin esfuerzo tendencias, anomalías y puntos de datos clave dentro de las visualizaciones gráficas. Por ejemplo, Pixtral Big es altamente efectivo para detectar irregularidades o tendencias perspicaces dentro de las curvas de pérdida de capacitación o métricas de rendimiento, lo que mejora la precisión de la toma de decisiones basada en datos.
  • Análisis visual general y comprensión contextual – Pixtral Large es experto en analizar datos visuales generales, incluidas capturas de pantalla y fotografías, extraer información matizada y responder de manera efectiva a las consultas basadas en el contenido de la imagen. Esta capacidad amplía significativamente su usabilidad, lo que le permite admitir escenarios variados, desde explicar contextos visuales en presentaciones hasta automatizar la moderación de contenido y la recuperación de imágenes contextuales.

Los detalles adicionales del modelo incluyen:

  • Pixtral grande está disponible en el eu-north-1 y us-west-2 Regiones de AWS
  • La inferencia de región cruzada está disponible para las siguientes regiones:
    • us-east-2
    • us-west-2
    • us-east-1
    • eu-west-1
    • eu-west-3
    • eu-north-1
    • eu-central-1
  • ID de modelo: mistral.pixtral-large-2502-v1:0
  • Ventana de contexto: 128,000

Comience con Pixtral grande en Amazon Bedrock

Si es nuevo en usar modelos de IA Mistrales, puede solicitar acceso al modelo en el Consola de roca en Amazon. Para más información, ver Access a los modelos de Foundation Bedrock de Amazon.

Para probar pixtral grande en la consola de roca madre de Amazon, elija Texto o Charlar bajo Parques infantiles En el panel de navegación. Entonces, elige Modelo seleccionado y elegir Mistral como la categoría y Pixtral grande como el modelo.

Eligiendo Ver APItambién puede acceder al modelo utilizando ejemplos de código en el Interfaz de línea de comandos de AWS (AWS CLI) y AWS SDKS. Puede usar una ID de modelo como mistral.mistral-large-2407-v1:0como se muestra en el siguiente código:

$ aws bedrock-runtime invoke-model \ 
--model-id mistral.pixtral-large-2502-v1:0 \
--body "{\"prompt\":\"<s>[INST] this is where you place your input text [/INST]\", \"max_tokens\":200, \"temperature\":0.5, \"top_p\":0.9, \"top_k\":50}" \ 
--cli-binary-format raw-in-base64-out \
--region eu-north-1 \ 
invoke-model-output.txt

En las siguientes secciones, nos sumergimos en las capacidades de pixtral grande.

Casos de uso pixtral grandes

En esta sección, proporcionamos casos de uso de ejemplo de pixtral grande utilizando indicaciones de muestra. Debido a que Pixtral grande se basa en Mistral grande 2, incluye un modo de salida JSON nativo. Esta característica permite a los desarrolladores recibir las respuestas del modelo en un formato estructurado y simple de leer, que puede integrarse perfectamente en varias aplicaciones y sistemas. Debido a que JSON es un estándar de intercambio de datos ampliamente utilizado, esta funcionalidad optimiza el proceso de trabajar con las salidas del modelo, lo que lo hace más accesible y práctico para los desarrolladores en diferentes industrias y casos de uso. Para obtener más información sobre la generación de JSON utilizando la API Converse, consulte Generando JSON con la API Converse Bedrock Amazon.

Además, Pixtral Big admite el API Converse y Uso de herramientas. Al utilizar la API de rock de Amazon, puede otorgar el modelo de acceso a las herramientas que ayudan a generar respuestas a los mensajes que envía.

Generar código SQL a partir de un diagrama de relación de entidad de base de datos

Un diagrama de relación entre entidades (ER) es una representación visual utilizada en el diseño de la base de datos para ilustrar las relaciones entre las entidades y sus atributos. Es una herramienta crucial para el modelado conceptual, ayudando a los desarrolladores y analistas a comprender y comunicar la estructura de los datos dentro de una base de datos.

Este ejemplo prueba la capacidad del modelo para generar postgresql compatible SQL CREATE TABLE declaraciones para crear entidades y sus relaciones.

Usamos el siguiente mensaje:

prompt = """
You are a database designer. You have created an ER diagram. You need to generate PostgreSQL compatible SQL statements to create the tables"
"""

Ingresamos el siguiente diagrama ER.

La respuesta del modelo es la siguiente:

Sure! Below are the SQL statements to create the tables based on the provided 
ER diagram for a PostgreSQL database.

```sql
-- Create the Airport table
CREATE TABLE Airport (
    Airport_ID SERIAL PRIMARY KEY,
    AirportCity VARCHAR(255),
    AirportCountry VARCHAR(255)
);

-- Create the Calendar table
CREATE TABLE Calendar (
    Day_Date DATE PRIMARY KEY,
    Business_Day_YN BOOLEAN
);

-- Create the Flight_Details table
CREATE TABLE Flight_Details (
    Flight_ID SERIAL PRIMARY KEY,
    Source_Airport_ID INT REFERENCES Airport(Airport_ID),
    Destination_Airport_ID INT REFERENCES Airport(Airport_ID),
    Departure_Date_Time TIMESTAMP,
    Arrival_Date_Time TIMESTAMP,
    Airplane_Type VARCHAR(255)
);

-- Create the Travel_Class table
CREATE TABLE Travel_Class (
    Travel_Class_ID SERIAL PRIMARY KEY,
    Travel_Class_Name VARCHAR(255),
    Travel_Class_Capacity INT
);

-- Create the Seat_Details table
CREATE TABLE Seat_Details (
    Seat_ID SERIAL PRIMARY KEY,
    Travel_Class_ID INT REFERENCES Travel_Class(Travel_Class_ID),
    Flight_ID INT REFERENCES Flight_Details(Flight_ID)
);

-- Create the Flight_Cost table
CREATE TABLE Flight_Cost (
    Seat_ID INT REFERENCES Seat_Details(Seat_ID),
    Valid_From_Date DATE,
    Cost DECIMAL(10, 2),
    Valid_To_Date DATE,
    PRIMARY KEY (Seat_ID, Valid_From_Date)
);

-- Create the Flight_Service table
CREATE TABLE Flight_Service (
    Service_ID SERIAL PRIMARY KEY,
    Service_Name VARCHAR(255)
);

-- Create the Service_Offering table
CREATE TABLE Service_Offering (
    Travel_Class_ID INT REFERENCES Travel_Class(Travel_Class_ID),
    Service_ID INT REFERENCES Flight_Service(Service_ID),
    Offered_YN BOOLEAN,
    From_Date DATE,
    To_Date DATE,
    PRIMARY KEY (Travel_Class_ID, Service_ID)
);

-- Create the Passenger table
CREATE TABLE Passenger (
    Passenger_ID SERIAL PRIMARY KEY,
    P_FirstName VARCHAR(255),
    P_LastName VARCHAR(255),
    P_Email VARCHAR(255),
    P_PhoneNumber VARCHAR(255),
    P_Address VARCHAR(255),
    P_City VARCHAR(255),
    P_State VARCHAR(255),
    P_Zipcode VARCHAR(255),
    P_Country VARCHAR(255)
);

-- Create the Reservation table
CREATE TABLE Reservation (
    Reservation_ID SERIAL PRIMARY KEY,
    Passenger_ID INT REFERENCES Passenger(Passenger_ID),
    Seat_ID INT REFERENCES Seat_Details(Seat_ID),
    Date_Of_Reservation DATE
);

-- Create the Payment_Status table
CREATE TABLE Payment_Status (
    Payment_ID SERIAL PRIMARY KEY,
    Payment_Status_YN BOOLEAN,
    Payment_Due_Date DATE,
    Payment_Amount DECIMAL(10, 2),
    Reservation_ID INT REFERENCES Reservation(Reservation_ID)
);
```

These SQL statements will create the tables as per the ER diagram you provided. Make sure to run these statements in the order they are listed to ensure that foreign key constraints are satisfied.

Convertir la jerarquía de la organización en texto estructurado

Pixtral grande tiene las capacidades para comprender la estructura de la organización y generar salida estructurada. Vamos a probarlo con una estructura de organización.

Usamos el siguiente mensaje:

prompt = """
Extract organization hierarchy from the given org structure. provide response in a structured json format with below:
- role
- name
- reporting_manager
"""

Ingresamos la siguiente imagen de estructura de organización.

La respuesta del modelo es la siguiente:

Here is the organization hierarchy extracted from the given org structure in a 
structured JSON format:

```json
[
    {
        "role": "President",
        "name": "John Smith",
        "reporting_manager": null
    },
    {
        "role": "VP Marketing",
        "name": "Susan Jones",
        "reporting_manager": "John Smith"
    },
    {
        "role": "VP Sales",
        "name": "Rachel Parker",
        "reporting_manager": "John Smith"
    },
    {
        "role": "VP Production",
        "name": "Tom Allen",
        "reporting_manager": "John Smith"
    },
    {
        "role": "Manager",
        "name": "Alice Johnson",
        "reporting_manager": "Susan Jones"
    },
    {
        "role": "Manager",
        "name": "Tim Moore",
        "reporting_manager": "Susan Jones"
    },
    {
        "role": "Manager",
        "name": "Michael Gross",
        "reporting_manager": "Rachel Parker"
    },
    {
        "role": "Manager",
        "name": "Kim Dole",
        "reporting_manager": "Rachel Parker"
    },
    {
        "role": "Manager",
        "name": "Kathy Roberts",
        "reporting_manager": "Tom Allen"
    },
    {
        "role": "Manager",
        "name": "Betsy Foster",
        "reporting_manager": "Tom Allen"
    }
]
```

Comprensión y razonamiento del gráfico

Pixtral grande tiene la capacidad de comprender y razonar sobre gráficos y gráficos. Probemos PixTral grande con una visualización de la parte de la propiedad de la motocicleta por país en todo el mundo.

Usamos el siguiente mensaje:

prompt = """Examine this visualization:
1. First, describe what this visualization represents:
   - What information is being shown?
   - How is the data displayed?
   - What do the different components represent?
   - What does the size variation indicate?
2. Analyze specific patterns:
   - Which region shows the highest proportion of the first category?
   - Which region shows the highest proportion of the second category?
   - Where do you observe the largest total values?
   - Which areas show the most balanced distribution?
3. Compare regional trends:
   - How do the proportions differ between continents?
   - What patterns emerge between different hemispheres?
   - Are there clear differences between different economic zones?
4. Identify interesting outliers:
   - Which regions stand out from their neighbors?
   - Can you identify any unexpected patterns?
   - Where do you notice significant data variations?
5. Consider geographical and demographic factors:
   - How might local conditions influence these patterns?
   - What socioeconomic factors might explain the variations?
   - Can you identify any correlation between size and proportions?
6. Make comparisons between:
   - Different geographical zones
   - Various population densities
   - Different economic development levels"""

Ingresamos la siguiente imagen.

Por Dennis Bratland-Trabajo propio, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=15186498

La respuesta del modelo es la siguiente:


Description of the Visualization:
Information Shown: The visualization presents data on the population (in millions) and the proportion of vehicles (cars and motorcycles) across various regions worldwide.
Display Method: The data is displayed using pie charts overlaid on a world map. The size of each pie chart corresponds to the population of the region, with larger pies indicating larger populations.
Components:
Pie Charts: Each pie chart is divided into two segments representing the proportion of cars (light blue) and motorcycles (dark blue).
Size Variation: The size of the pie charts indicates the total population of the region, with larger pies representing higher populations.
Specific Patterns:
Highest Proportion of Cars: Regions like the United States and parts of Europe show a higher proportion of cars.
Highest Proportion of Motorcycles: Southeast Asian countries like Indonesia and Vietnam show a higher proportion of motorcycles.
Largest Total Values: Large pie charts are observed in highly populated regions like India, China, and parts of Southeast Asia.
Most Balanced Distribution: Some regions in Europe and South America show a more balanced distribution of cars and motorcycles.
Regional Trends:
Continental Differences:
North America: Predominantly cars.
Europe: A mix with a slight preference for cars.
Africa: Generally lower total values with varied proportions.
Asia: High population with a significant proportion of motorcycles in Southeast Asia.
Hemispheric Patterns: The Northern Hemisphere has more densely populated regions with varied vehicle proportions, while the Southern Hemisphere shows lower population densities and more balanced distributions.
Economic Zones: Developed regions tend to have higher car proportions, while developing regions, especially in Asia, show higher motorcycle usage.
Interesting Outliers:
Indonesia: Stands out with a very high proportion of motorcycles compared to neighboring regions.
United States: Shows a predominantly high proportion of cars, distinct from other regions.
Unexpected Patterns: Some smaller African countries show unexpectedly high proportions of motorcycles despite lower populations.
Geographical and Demographic Factors:
Local Conditions: Urbanization and infrastructure development influence vehicle preferences.
Socioeconomic Factors: Economic status and affordability play significant roles in vehicle choices.
Correlation: Larger populations in developing regions often correlate with higher motorcycle usage due to affordability and convenience.
Comparisons:
Geographical Zones: Urban areas in developed countries show higher car usage, while rural and developing regions favor motorcycles.
Population Densities: Highly populated areas in Asia show a preference for motorcycles due to traffic congestion and affordability.
Economic Development: Developed economies have higher car proportions, while developing economies rely more on motorcycles.

Conclusión

En esta publicación, demostramos cómo comenzar con el modelo PixTral grande en Amazon Bedrock. El modelo multimodal grande Pixtral le permite abordar una variedad de casos de uso, como comprensión de documentos, razonamiento lógico, reconocimiento de escritura a mano, comparación de imágenes, extracción de entidad, extraer datos estructurados de imágenes escaneadas y generación de subtítulos. Estas capacidades pueden mejorar la productividad en numerosas aplicaciones empresariales, incluido el comercio electrónico (minorista), el marketing, los servicios financieros y más allá.

Pixtral FM de Mistral AI ahora está disponible en Amazon Bedrock. Para comenzar con Pixtral Large en Amazon Bedrock, visite el Consola de roca en Amazon.

¿Curioso para explorar más? Echa un vistazo al Reposition. Para obtener más información sobre los modelos de IA Mistral disponibles en Amazon Bedrock, consulte Modelos Mistral AI ahora disponibles en Amazon Bedrock.


Sobre los autores

Deepesh Dhapola es un arquitecto de soluciones senior en AWS India, especializada en ayudar a los servicios financieros y los clientes de FinTech optimizan y escala sus aplicaciones en la nube de AWS. Con un fuerte enfoque en las tecnologías de IA de tendencia, incluidas la IA generativa, los agentes de IA y el Protocolo de contexto del modelo (MCP), Deepesh aprovecha su experiencia en el aprendizaje automático para diseñar soluciones innovadoras, escalables y seguras. Apasionado por el potencial transformador de la IA, explora activamente los avances de vanguardia para impulsar la eficiencia y la innovación para los clientes de AWS. Fuera del trabajo, Deepesh disfruta pasar tiempo de calidad con su familia y experimentar con diversas creaciones culinarias.

Andre Boaventura es un arquitecto principal de soluciones de IA/ML en AWS, especializada en IA generativas y soluciones de aprendizaje automático escalable. Con más de 25 años en la industria de software de alta tecnología, tiene una profunda experiencia en el diseño y la implementación de aplicaciones de IA utilizando servicios de AWS como Amazon Bedrock, Amazon Sagemaker y Amazon Q. Andre trabaja en estrecha colaboración con los integradores de sistemas globales (GSI) y los clientes en las industrias a las soluciones de AI/ML de recorte para impulsar el valor comercial.

Preston Tuggle es un arquitecto de soluciones especialistas en el Sr. con el equipo de proveedores de modelos de terceros en AWS. Se enfoca en trabajar con proveedores de modelos en Amazon Bedrock y Amazon Sagemaker, ayudándoles a acelerar sus estrategias de mercado a través de iniciativas de escala técnica y participación del cliente

Shane Rai es un especialista principal de Genai de la Organización Especialista Mundial de AWS (WWSO). Trabaja con clientes en todas las industrias para resolver sus necesidades comerciales más apremiantes e innovadoras utilizando la amplitud de los servicios de IA/ML basados ​​en la nube de AWS, incluidas las ofertas de modelos de proveedores de modelos de fundación de primer nivel.

Ankit agarwal es un gerente de producto técnico senior en Amazon Bedrock, donde opera en la intersección de las necesidades del cliente y los proveedores de modelos de fundación. Lleva iniciativas a modelos de vanguardia a bordo en Amazon Bedrock Servidor sin servidor e impulsa el desarrollo de características centrales que mejoran las capacidades de la plataforma.

Niithiyn vijeaswaran es un arquitecto generativo de soluciones especialistas en IA con el equipo de ciencias de modelos de terceros en AWS. Su área de enfoque son los aceleradores de AWS AI (AWS Neuron). Tiene una licenciatura en informática y bioinformática.

Aris tsakpinis es un arquitecto de soluciones especializadas para la IA generativa centrada en los modelos de código abierto en el lecho de roca de Amazon y el ecosistema de código abierto de IA generativo más amplio. Junto con su papel profesional, está cursando un doctorado en ingeniería de aprendizaje automático en la Universidad de Regensburg, donde su investigación se centra en el procesamiento del lenguaje natural aplicado en dominios científicos.

Por automata