Mistral OCR 4 ofrece resultados estructurados listos para citas a los canales de búsqueda RAG, Agentic y Enterprise

Hoy, Mistral AI lanzó OCR 4, su último modelo de comprensión de documentos. Esta nueva versión agrega cuadros delimitadores, clasificación de bloques y puntuaciones de confianza en línea junto con el texto extraído. Admite 170 idiomas en 10 grupos de idiomas y se ejecuta en un único contenedor para implementaciones totalmente autohospedadas. OCR 4 también sirve como componente de ingesta para procesos de búsqueda empresarial, RAG y recuperación de dominios específicos.

TL;DR

OCR 4 devuelve cuadros delimitadores, etiquetas de bloques escritos y puntuaciones de confianza por palabra, no sólo texto. Admite 170 idiomas en 10 grupos, con ventajas en idiomas raros y de bajos recursos. Los anotadores independientes prefirieron OCR 4 a todos los sistemas probados, con un promedio de tasas de éxito del 72 %. El precio es de $4 por cada 1000 páginas, y baja a $2 con el descuento de API por lotes. Un punto final sirve tanto para la extracción sin procesar como para la salida de documentos AI basada en esquemas.

Mistral OCR 4

Mistral OCR 4 extrae y estructura contenido de una amplia gama de documentos. Las generaciones anteriores se centraron en convertir una página en texto y tablas limpios. En cambio, OCR 4 devuelve una representación estructurada de todo el documento.

Cada bloque se localiza con un cuadro delimitador y se clasifica por tipo. Los tipos de bloques incluyen títulos, tablas, ecuaciones, firmas y más. Las puntuaciones de confianza en línea se generan por página y por palabra.

Por lo tanto, los sistemas posteriores aprenden más de lo que dice un documento. También aprenden dónde se ubica cada elemento, qué papel desempeña y qué tan seguro tiene el modelo. Ese contexto adicional es importante para las citas, las redacciones y la verificación humana.

OCR 4 acepta formatos empresariales comunes, incluidos PDF, DOC, PPT y OpenDocument. El modelo es lo suficientemente compacto como para implementarlo en un solo contenedor. La implementación autoadministrada está disponible para los clientes empresariales para la residencia y el cumplimiento de los datos.

Punto de referencia

Mistral comparó OCR 4 con modelos OCR nativos de IA, modelos fronterizos de propósito general, servicios de documentos empresariales y Mistral OCR 3.

Varios anotadores independientes prefirieron OCR 4 a todos los sistemas líderes probados. Las tasas de ganancia promediaron el 72% en todo el conjunto de comparación. La evaluación utilizó más de 600 documentos en más de 12 idiomas, procedentes de proveedores externos. Los anotadores clasificaron la producción de cada competidor frente a OCR 4, documento por documento.

En los puntos de referencia automatizados, OCR 4 obtuvo una puntuación de 85,20 en el OlmOCRBench público. Obtuvo una puntuación de 93,07 en OmniDocBench y 0,98 en la evaluación interna Crawl Multilingual de Mistral.

Dos puntos de datos del cliente añaden contexto. Rogo informó una precisión equivalente a un costo aproximadamente 8 veces menor y una latencia 17 veces menor en comparación con los principales analizadores agentes. Anaqua midió aproximadamente 4 veces más rápido por página que su proveedor actual.

Segmentación, no sólo texto

Los cuadros delimitadores eran la capacidad más solicitada de Mistral. Localizan texto para resaltarlo en contexto y canalizar datos confiables.

Los tipos de bloques y las puntuaciones de confianza sirven para diferentes trabajos. Impulsan citas basadas en fuentes, redacciones y verificación humana. Esta estructura admite varias cargas de trabajo posteriores.

Los bloques limpios y clasificados se convierten en mejores unidades de recuperación para RAG. Los agentes obtienen primitivas estructurales para actuar sobre los documentos, no sólo leerlos. Los conectores reciben resultados escritos consistentes para la ingestión e indexación.

OCR 4 también es un componente de ingesta de Mistral Search Toolkit, ahora en versión preliminar pública. Search Toolkit es el marco de búsqueda componible de código abierto de Mistral. Su salida estructurada proporciona entradas listas para citar para los flujos de trabajo de recuperación y evaluación.

Casos de uso con ejemplos

OCR 4 admite tanto procesos de gran volumen como flujos de trabajo de documentos interactivos.

Análisis y extracción de documentos: convierta un contrato multilingüe en un descuento limpio y estructurado para la indexación. Generación aumentada de recuperación (RAG): introduzca bloques clasificados en el kit de herramientas de búsqueda para obtener respuestas basadas en fuentes con citas. Flujos de trabajo agentes: proporcione a un agente de procesamiento de facturas campos escritos y cuadros delimitadores para completar formularios automáticamente. Canalizaciones controladas por la confianza: enrute las regiones de baja confianza a verificadores humanos y apruebe automáticamente el resto. Búsqueda empresarial: utilice OCR 4 como componente de fuente de datos para la ingesta y extracción de entidades en un archivo.

Los primeros usuarios aplican OCR 4 para convertir facturas en campos estructurados y digitalizar archivos de la empresa. Otros extraen texto limpio de informes técnicos o impulsan búsquedas empresariales.

Una nota sobre el alcance del comunicado oficial de Mistral: OCR 4 es un modelo de comprensión de documentos, no un tomador de decisiones. No está destinado a diagnósticos médicos, juicios legales o decisiones financieras de alto riesgo. Tampoco es adecuado para sistemas críticos para la seguridad, procesamiento en tiempo real o entradas que no sean documentos, como audio o vídeo sin formato.

OCR 4 se envía detrás de un único punto final API. Cada solicitud ejecuta el mismo modelo. Siempre devuelve contenido extraído, cuadros delimitadores, tipos de bloques, puntuaciones de confianza y rebajas. Lo que varía es la cantidad que pones encima.

CapacidadModo de extracción puroModo de IA de documentos (mismo punto final)SalidaMarkdown, bboxes, tipos de bloques, confianzaJSON estructurado en un esquema que usted definaCómo funcionaRespuesta de OCR sin procesarSalida de OCR alimentada a mistral-small-2603Anotación de imagenNo se aplicaLlamada de lenguaje de visión por imagen en esquemaMensaje personalizadoNoSí, guía de interpretación o resumenMejor paraCanalizaciones, agentes, ingesta por lotesUsuarios empresariales, pilotos, sin análisis logicPrecio$4 / 1000 páginas ($2 por lote)$5 / 1000 páginasAutohospedajeDisponible para empresasDisponible para empresas

La regla de decisión es simple. ¿Necesita contenido extraído sin procesar? Utilice OCR 4 tal cual. ¿Necesita transformar la salida en un esquema o anotarla con campos de dominio? Agregue los parámetros del Documento AI a la misma llamada.

Trabajar con la API

La extracción básica toma la URL de un documento y devuelve páginas estructuradas. Establezca include_blocks=True para obtener los bloques escritos y los cuadros delimitadores.

importar sistema operativo desde mistralai.client importar cliente Mistral = Mistral(api_key=os.environ[“MISTRAL_API_KEY”]) ocr_response = client.ocr.process( model=”mistral-ocr-latest”, document={ “type”: “document_url”, “document_url”: “https://arxiv.org/pdf/2201.04234″ }, include_blocks=True, # bloques escritos + cuadros delimitadores table_format=”html”, # Ninguno (en línea), “markdown” o “html” include_image_base64=Verdadero)

La respuesta es un objeto JSON con una matriz de páginas. Cada página incluye rebajas, imágenes, tablas, hipervínculos, dimensiones y puntuaciones de confianza. Para cerrar un proceso de revisión humana, solicite confianza por palabra.

ocr_response = client.ocr.process( model=”mistral-ocr-latest”, document={“type”: “document_url”, “document_url”: “https://arxiv.org/pdf/2201.04234″}, trust_scores_granularity=”word” # o “page” para agregados)

La configuración “palabra” agrega una matriz word_confidence_scores por página y por entrada de tabla. Para trabajos de gran volumen, Mistral recomienda el servicio Batch Inference, que reduce a la mitad el costo por página.

Pruébelo: Explorador de resultados interactivo

La siguiente inserción visualiza la salida estructurada de OCR 4. Cambie entre documentos de muestra, alterne cuadros delimitadores y tipos de bloques, y active el mapa de calor de confianza. Las pestañas Markdown y JSON muestran las dos formas de salida una al lado de la otra. Los datos de muestra son ilustrativos, no una llamada API en vivo.

Consulte el anuncio de Mistral OCR 4, la tarjeta modelo OCR 4 y los documentos del procesador OCR. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ml y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Fuentes: anuncio de Mistral OCR 4, tarjeta modelo OCR 4, documentos del procesador OCR.