Mistral lanza OCR 4: extrae documentos en 170 idiomas con cajas delimitadoras y puntajes de confianza
OCR 4 de Mistral extrae documentos en 170 idiomas con cajas, tipos de bloque y puntajes de confianza.
TL;DR:
- Mistral AI lanzó OCR 4 el 23 de junio de 2026: además del texto, devuelve cajas delimitadoras, el tipo de cada bloque (títulos, tablas, ecuaciones, firmas) y un puntaje de confianza por página y por palabra.
- En pruebas a ciegas con más de 600 documentos en 12 idiomas, anotadores independientes prefirieron OCR 4 sobre todos los sistemas rivales, con una tasa de victoria promedio del 72%.
- Corre en un solo contenedor para alojarlo en infraestructura propia y cuesta 4 dólares por cada mil páginas (2 dólares con la Batch API); Document AI sube a 5 dólares.
Mistral AI presentó este 23 de junio de 2026 su modelo OCR 4, una herramienta de lectura de documentos que da un paso más allá del texto plano: junto con lo que dice cada página, ahora entrega también dónde está cada elemento, qué tipo de bloque es y qué tan seguro está el sistema de cada zona. Soporta 170 idiomas en 10 grupos lingüísticos, se puede alojar entero en un solo contenedor dentro de la infraestructura de cada empresa y apunta a sectores que mueven papeleo pesado —legal, financiero, salud y técnico—. El precio arranca en 4 dólares por cada mil páginas, con la mitad de costo si se procesa por lotes.
Mistral OCR 4 es un modelo de extracción y comprensión de documentos que convierte PDF, Word, PowerPoint y archivos OpenDocument en texto estructurado. La diferencia con las versiones anteriores está en el salto de qué dice un documento a dónde está cada cosa, qué papel juega y con cuánta certeza lo leyó el modelo. En vez de escupir una página limpia de texto, devuelve una representación con coordenadas, etiquetas y puntajes.
Mistral acompañó el anuncio con una demostración del modelo procesando documentos.
De leer texto a entender la estructura del documento
Las tres capacidades nuevas trabajan juntas. Las cajas delimitadoras —la función más pedida por los usuarios, según Mistral— marcan en qué parte exacta de la hoja está cada bloque de texto, lo que permite resaltar datos en su contexto y armar tuberías de datos más confiables. La clasificación por tipo de bloque etiqueta si algo es un título, una tabla, una ecuación o una firma. Y los puntajes de confianza ponen un número a qué tan seguro está el modelo de cada página y cada palabra, una señal útil para decidir cuándo conviene que un humano revise.
Eso es lo que vuelve al texto digerible para otros sistemas: agentes que ya no solo leen un documento sino que actúan sobre él —llenan formularios, procesan facturas, corren chequeos de cumplimiento— y motores de búsqueda interna que cortan el contenido en pedazos limpios y citables. Mistral conectó OCR 4 con su Search Toolkit, el marco de búsqueda de código abierto que estrenó en su cumbre AI Now, justo para alimentar esos flujos de RAG y búsqueda empresarial.
Esto es lo que trae OCR 4 frente a generaciones previas:
- Cajas delimitadoras (bounding boxes): ubican cada bloque dentro de la página.
- Clasificación de bloques por tipo: títulos, tablas, ecuaciones, firmas y más.
- Puntajes de confianza por página y por palabra.
- 170 idiomas en 10 grupos lingüísticos, con mejoras medibles en lenguas raras y de pocos recursos donde varios rivales se caen.
- Formatos de entrada: PDF, DOC, PPT y OpenDocument.
- Despliegue en un solo contenedor, apto para alojarlo por completo en infraestructura propia.
Un 72% de preferencia en pruebas a ciegas (y una advertencia del propio Mistral)
Para medir el modelo, Mistral armó un panel de más de 600 documentos en más de 12 idiomas y pidió a anotadores independientes que, sin saber qué sistema generó cada salida, compararan OCR 4 contra cada rival, documento por documento. El resultado que reporta la compañía: los evaluadores prefirieron OCR 4 sobre todos los sistemas probados, con una tasa de victoria promedio del 72%. En las pruebas automáticas, Mistral dice que su modelo encabeza el público OlmOCRBench (85.20) y marca 93.07 en OmniDocBench.
Aquí viene la parte honesta, y poco común en un anuncio de lanzamiento. Mistral advierte que esos benchmarks tienen límites conocidos para puntuar ciertas salidas, y que al auditar sus propios desajustes encontró que la mayoría no eran errores del modelo sino artefactos de cómo el benchmark compara resultados: anotaciones de referencia equivocadas, fórmulas matemáticas escritas distinto pero que se ven igual en pantalla, líos con el orden de lectura en documentos a varias columnas. Por eso pide tomar el número agregado como una señal de dirección, no como veredicto, y recomienda a cada quien probar el modelo con sus propios documentos.
Entre los primeros clientes ya hay cifras concretas sobre la mesa.
"Comparamos Mistral OCR 4 contra los principales parsers de documentos con agentes sobre un conjunto de preguntas y respuestas financieras lleno de gráficas y figuras, y alcanzamos una precisión equivalente con un costo aproximadamente 8 veces menor y una latencia 17 veces menor. En casos de uso en producción a gran escala, esa diferencia se acumula rápido."
— Aidan Donohue, AI Engineer en Rogo
Mistral también marca los límites de uso: OCR 4 entiende documentos, pero no toma decisiones. No está pensado para diagnóstico médico, asesoría o juicio legal, decisiones financieras de alto riesgo ni sistemas críticos de seguridad.
Precio agresivo y la opción de correrlo en casa
El costo es parte del mensaje. A través de la API, OCR 4 cuesta 4 dólares por cada mil páginas, que bajan a 2 dólares con el 50% de descuento de la Batch API para procesos por lotes. La capa Document AI, que entrega los resultados ya ordenados en un esquema JSON sin escribir código de parseo, sube a 5 dólares por cada mil páginas. El modelo está disponible vía API en Mistral Studio, Amazon SageMaker y Microsoft Foundry, y llegará pronto a Snowflake Parse Document.
El punto que más pesa para la región es el despliegue propio. Como OCR 4 cabe en un solo contenedor, una empresa puede correrlo dentro de su propia infraestructura y nunca sacar los documentos de ahí. Para bancos, aseguradoras, despachos legales y hospitales de habla hispana —en México, España o el resto de América Latina— que manejan información sensible y normas estrictas de residencia de datos, esa diferencia decide si la herramienta entra o no a producción. Procesar expedientes médicos o contratos en una nube ajena suele chocar con la regulación; hacerlo puertas adentro, no.
Para los proveedores tradicionales de OCR, el golpe va donde más duele: precio y velocidad. Y al volver la lectura de documentos lo bastante barata, estructurada y portátil como para alojarla en casa, OCR 4 acerca la automatización de papeleo pesado a empresas que hasta ahora la miraban de lejos, incluidas muchas del mundo hispanohablante que no podían mandar sus archivos a un servidor de terceros.