Tecnología y Ciencia IA

OpenAI recorta a la mitad el costo de inferencia de ChatGPT con una optimización de software, según The Information

Ingenieros de OpenAI dicen haber recortado a la mitad el costo de inferencia de ChatGPT, según The Information.

por Dilis Salazar

El 30 de junio de 2026, 14:20 PST 3 minutos de lectura

OpenAI recorta a la mitad el costo de inferencia de ChatGPT con una optimización de software, según The Information

TL;DR:

Ingenieros de OpenAI les dijeron a sus colegas que encontraron una forma de recortar el costo de inferencia en más de 50%, según un reporte de The Information.
El ahorro ya se aplicó al tráfico de usuarios sin cuenta de ChatGPT, donde el número de GPUs Nvidia necesarias cayó a un par de cientos.
La técnica exacta no se reveló y no está confirmado si el recorte se extiende a cuentas de pago, la API o los modelos de razonamiento.

OpenAI encontró una forma de recortar a más de la mitad el costo de ejecutar sus modelos de inteligencia artificial, uno de los gastos que más presiona el negocio de los laboratorios de IA. Según reportó The Information este 30 de junio, ingenieros de la compañía les contaron a sus colegas a principios de junio que habían dado con la optimización, de acuerdo con una persona con conocimiento directo de las conversaciones internas. OpenAI ya la aplicó al tráfico de ChatGPT que llega de visitantes sin cuenta: ahí, el número de GPUs Nvidia necesarias se desplomó a apenas un par de cientos. La empresa no confirmó cuántas tarjetas hacían falta antes del cambio, ni reveló la técnica detrás del ahorro.

El ajuste, según la fuente citada por The Information, salió de exprimir mejor los servidores que OpenAI ya tenía corriendo, no de instalar chips nuevos. Por ahora solo toca al tráfico de usuarios invitados: la fracción de gente que entra a ChatGPT sin registrarse y que solo tiene acceso a un puñado de funciones, muy por debajo de lo que ofrecen las cuentas gratuitas con registro, las de pago o la API.

Esa frontera importa. El reporte se sostiene en una sola fuente anónima con acceso a las conversaciones internas, y el cambio todavía no salió de ese segmento acotado del producto. No hay manera de saber, por ahora, si el mismo ahorro se replicaría en consultas más largas, en los modelos de razonamiento o en el tráfico de pago, que es justo donde a OpenAI más le urge ganar margen.

Photo by Mariia Shalabaieva / Unsplash

Nvidia reveló el mismo día hasta dónde puede llegar el ahorro de software

El momento no es casualidad. El mismo 30 de junio, Nvidia publicó en su blog oficial cuánto puede bajar el costo por token cuando se afina a fondo el software de inferencia. Según la compañía, su stack completo sobre la plataforma Blackwell ya redujo hasta 5 veces el costo por token del modelo DeepSeek V4 en apenas un mes.

Nvidia mostró varios casos concretos de clientes que ya capturan esa ganancia:

Baseten usó la librería de código abierto TensorRT-LLM para correr DeepSeek V4 Pro sobre GPUs Blackwell y, con ajustes propios, sumó hasta 50% más tokens por segundo.
Cognition usa el framework Dynamo de Nvidia para administrar sus GPUs de inferencia y escalar cargas de aprendizaje por refuerzo sin construir esa infraestructura desde cero.
Deep Infra corre modelos abiertos de punta —incluido DeepSeek V4— sobre Blackwell desde el día uno con el mismo stack.
Together AI aplicó TensorRT-LLM sobre Blackwell para ayudar a Cursor a llevar sus optimizaciones a producción en su asistente de código en tiempo real.

Apiladas, las técnicas de Nvidia —separar etapas del servicio, repartir el cómputo entre más GPUs especializadas, bajar la precisión numérica a NVFP4 y predecir varios tokens a la vez— multiplican el rendimiento por GPU hasta 20 veces frente a la línea base, según la propia compañía.

El recorte que reporta The Information encaja en ese mismo movimiento. Los laboratorios grandes ya no solo compiten por comprar más chips: compiten por sacarle más jugo a los que ya tienen instalados.

El otro frente de OpenAI: apostar por su propio chip

Días antes, el 24 de junio, OpenAI ya había mostrado otra cara de la misma pelea. Junto con Broadcom, presentó Jalapeño, su primer chip diseñado específicamente para inferencia, con despliegue planeado para finales de 2026. Ese es un proyecto de hardware, distinto a la optimización de software que reportó The Information este 30 de junio, pero apunta en la misma dirección: bajar el costo por token desde todos los frentes posibles, justo en un momento en que la presión por mejorar márgenes no afloja.

Si el ahorro de software logra extenderse más allá del tráfico gratuito, el margen liberado le abre a OpenAI varias salidas: bajar precios en la API, ampliar los límites de uso gratuito o absorber más demanda sin comprar más chips. Por ahora, lo único confirmado es que la compañía encontró la manera de hacer más con el mismo hardware. El método exacto, y qué tan lejos llega, sigue bajo reserva.

Fuentes: 1, 2, 3

por Dilis Salazar

FomoEra

Suscríbete a nuestro boletín

OpenAI recorta a la mitad el costo de inferencia de ChatGPT con una optimización de software, según The Information

Nvidia reveló el mismo día hasta dónde puede llegar el ahorro de software

El otro frente de OpenAI: apostar por su propio chip

Las empresas que más invierten en IA contratan más personal, revela un estudio de 21,559 firmas en EE. UU.

Francia golea 3-0 a Suecia y avanza a 8vos contra Paraguay

Google apagó la API de Tenor: por qué cambiaron los GIFs en X, Discord y WhatsApp

Visa, Stripe, Mastercard y BlackRock lanzan Open USD: el stablecoin de 140 empresas que reta a Circle y Tether

AWS lanza su unidad de forward deployed engineers con $1,000 millones y se suma a OpenAI, Anthropic y Google

Leer más de Tecnología y Ciencia

Google apagó la API de Tenor: por qué cambiaron los GIFs en X, Discord y WhatsApp

AWS lanza su unidad de forward deployed engineers con $1,000 millones y se suma a OpenAI, Anthropic y Google

Anthropic lanza Claude Sonnet 5 con el nivel de Opus 4.8 a menor precio, mientras Mythos y Fable siguen restringidos

Google lanza Nano Banana 2 Lite: genera imágenes en 4 segundos y abre Gemini Omni Flash a desarrolladores