Tecnología y Ciencia IA

Mistral lanza OCR 4: extrae documentos en 170 idiomas con cajas delimitadoras y puntajes de confianza

OCR 4 de Mistral extrae documentos en 170 idiomas con cajas, tipos de bloque y puntajes de confianza.

por Ana Ambriz

El 23 de junio de 2026, 16:00 PST 5 minutos de lectura

Mistral lanza OCR 4: extrae documentos en 170 idiomas con cajas delimitadoras y puntajes de confianza

TL;DR:

Mistral AI lanzó OCR 4 el 23 de junio de 2026: además del texto, devuelve cajas delimitadoras, el tipo de cada bloque (títulos, tablas, ecuaciones, firmas) y un puntaje de confianza por página y por palabra.
En pruebas a ciegas con más de 600 documentos en 12 idiomas, anotadores independientes prefirieron OCR 4 sobre todos los sistemas rivales, con una tasa de victoria promedio del 72%.
Corre en un solo contenedor para alojarlo en infraestructura propia y cuesta 4 dólares por cada mil páginas (2 dólares con la Batch API); Document AI sube a 5 dólares.

Mistral AI presentó este 23 de junio de 2026 su modelo OCR 4, una herramienta de lectura de documentos que da un paso más allá del texto plano: junto con lo que dice cada página, ahora entrega también dónde está cada elemento, qué tipo de bloque es y qué tan seguro está el sistema de cada zona. Soporta 170 idiomas en 10 grupos lingüísticos, se puede alojar entero en un solo contenedor dentro de la infraestructura de cada empresa y apunta a sectores que mueven papeleo pesado —legal, financiero, salud y técnico—. El precio arranca en 4 dólares por cada mil páginas, con la mitad de costo si se procesa por lotes.

Mistral OCR 4 es un modelo de extracción y comprensión de documentos que convierte PDF, Word, PowerPoint y archivos OpenDocument en texto estructurado. La diferencia con las versiones anteriores está en el salto de qué dice un documento a dónde está cada cosa, qué papel juega y con cuánta certeza lo leyó el modelo. En vez de escupir una página limpia de texto, devuelve una representación con coordenadas, etiquetas y puntajes.

Mistral acompañó el anuncio con una demostración del modelo procesando documentos.

De leer texto a entender la estructura del documento

Las tres capacidades nuevas trabajan juntas. Las cajas delimitadoras —la función más pedida por los usuarios, según Mistral— marcan en qué parte exacta de la hoja está cada bloque de texto, lo que permite resaltar datos en su contexto y armar tuberías de datos más confiables. La clasificación por tipo de bloque etiqueta si algo es un título, una tabla, una ecuación o una firma. Y los puntajes de confianza ponen un número a qué tan seguro está el modelo de cada página y cada palabra, una señal útil para decidir cuándo conviene que un humano revise.

Eso es lo que vuelve al texto digerible para otros sistemas: agentes que ya no solo leen un documento sino que actúan sobre él —llenan formularios, procesan facturas, corren chequeos de cumplimiento— y motores de búsqueda interna que cortan el contenido en pedazos limpios y citables. Mistral conectó OCR 4 con su Search Toolkit, el marco de búsqueda de código abierto que estrenó en su cumbre AI Now, justo para alimentar esos flujos de RAG y búsqueda empresarial.

Esto es lo que trae OCR 4 frente a generaciones previas:

Cajas delimitadoras (bounding boxes): ubican cada bloque dentro de la página.
Clasificación de bloques por tipo: títulos, tablas, ecuaciones, firmas y más.
Puntajes de confianza por página y por palabra.
170 idiomas en 10 grupos lingüísticos, con mejoras medibles en lenguas raras y de pocos recursos donde varios rivales se caen.
Formatos de entrada: PDF, DOC, PPT y OpenDocument.
Despliegue en un solo contenedor, apto para alojarlo por completo en infraestructura propia.

Un 72% de preferencia en pruebas a ciegas (y una advertencia del propio Mistral)

Para medir el modelo, Mistral armó un panel de más de 600 documentos en más de 12 idiomas y pidió a anotadores independientes que, sin saber qué sistema generó cada salida, compararan OCR 4 contra cada rival, documento por documento. El resultado que reporta la compañía: los evaluadores prefirieron OCR 4 sobre todos los sistemas probados, con una tasa de victoria promedio del 72%. En las pruebas automáticas, Mistral dice que su modelo encabeza el público OlmOCRBench (85.20) y marca 93.07 en OmniDocBench.

Aquí viene la parte honesta, y poco común en un anuncio de lanzamiento. Mistral advierte que esos benchmarks tienen límites conocidos para puntuar ciertas salidas, y que al auditar sus propios desajustes encontró que la mayoría no eran errores del modelo sino artefactos de cómo el benchmark compara resultados: anotaciones de referencia equivocadas, fórmulas matemáticas escritas distinto pero que se ven igual en pantalla, líos con el orden de lectura en documentos a varias columnas. Por eso pide tomar el número agregado como una señal de dirección, no como veredicto, y recomienda a cada quien probar el modelo con sus propios documentos.

Entre los primeros clientes ya hay cifras concretas sobre la mesa.

"Comparamos Mistral OCR 4 contra los principales parsers de documentos con agentes sobre un conjunto de preguntas y respuestas financieras lleno de gráficas y figuras, y alcanzamos una precisión equivalente con un costo aproximadamente 8 veces menor y una latencia 17 veces menor. En casos de uso en producción a gran escala, esa diferencia se acumula rápido."
— Aidan Donohue, AI Engineer en Rogo

Mistral también marca los límites de uso: OCR 4 entiende documentos, pero no toma decisiones. No está pensado para diagnóstico médico, asesoría o juicio legal, decisiones financieras de alto riesgo ni sistemas críticos de seguridad.

Precio agresivo y la opción de correrlo en casa

El costo es parte del mensaje. A través de la API, OCR 4 cuesta 4 dólares por cada mil páginas, que bajan a 2 dólares con el 50% de descuento de la Batch API para procesos por lotes. La capa Document AI, que entrega los resultados ya ordenados en un esquema JSON sin escribir código de parseo, sube a 5 dólares por cada mil páginas. El modelo está disponible vía API en Mistral Studio, Amazon SageMaker y Microsoft Foundry, y llegará pronto a Snowflake Parse Document.

Close-up of server cooling fans in a vibrant data center. — Photo by Winston Chen / Unsplash

El punto que más pesa para la región es el despliegue propio. Como OCR 4 cabe en un solo contenedor, una empresa puede correrlo dentro de su propia infraestructura y nunca sacar los documentos de ahí. Para bancos, aseguradoras, despachos legales y hospitales de habla hispana —en México, España o el resto de América Latina— que manejan información sensible y normas estrictas de residencia de datos, esa diferencia decide si la herramienta entra o no a producción. Procesar expedientes médicos o contratos en una nube ajena suele chocar con la regulación; hacerlo puertas adentro, no.

Para los proveedores tradicionales de OCR, el golpe va donde más duele: precio y velocidad. Y al volver la lectura de documentos lo bastante barata, estructurada y portátil como para alojarla en casa, OCR 4 acerca la automatización de papeleo pesado a empresas que hasta ahora la miraban de lejos, incluidas muchas del mundo hispanohablante que no podían mandar sus archivos a un servidor de terceros.

Fuentes: 1, 2

por Ana Ambriz

FomoEra

Suscríbete a nuestro boletín

Mistral lanza OCR 4: extrae documentos en 170 idiomas con cajas delimitadoras y puntajes de confianza

De leer texto a entender la estructura del documento

Un 72% de preferencia en pruebas a ciegas (y una advertencia del propio Mistral)

Precio agresivo y la opción de correrlo en casa

YouTube llega a un acuerdo y sale del segundo juicio por daño de las redes a menores; Meta, TikTok y Snap siguen

Micron y SanDisk caen 13% y arrastran a los chips: el rally de la IA enfrenta su prueba en Wall Street

Tabla de Goleo del Mundial 2026 tras 2 Jornadas: Ya entró Cristiano Ronaldo

SpaceX se hunde en bolsa tras su IPO récord, pero su debut de bonos atrae 89.000 millones

Menlo Ventures levanta 3,000 millones para IA, su mayor fondo en 50 años impulsado por Anthropic

El gobierno de Trump presiona a Meta, el único gigante de IA que aún no acepta la revisión federal

Varonis explora una posible venta tras el interés de Blackstone, Thoma Bravo y Vista; su acción se dispara

Walmart compra Vibe.co por US$1,400 millones para llevar la publicidad en streaming a las pymes

Didier Deschamps abandona a Francia vs Noruega por la muerte de su madre

Meta lanza gafas inteligentes con su propia marca desde 299 dólares y deja atrás Ray-Ban

Leer más de Tecnología y Ciencia

Meta lanza gafas inteligentes con su propia marca desde 299 dólares y deja atrás Ray-Ban

ByteDance presenta Seedance 2.5: video con IA de 30 segundos y hasta 50 referencias, con estreno en julio

Anthropic lanza Claude Tag: su IA se integra a Slack como un compañero que aprende y trabaja por su cuenta

Scattered Spider: dos hackers se declaran culpables por el ciberataque a Transport for London