Cursor lanza Composer 2.5: el nuevo modelo de coding que apuesta por tareas largas y menor costo
Cursor lanza Composer 2.5 con mejor trabajo sostenido, nuevos precios y entrenamiento sobre Kimi K2.5.
TL;DR:
Cursor lanzó Composer 2.5 dentro de su editor, con mejoras para tareas largas y seguimiento de instrucciones complejas.
El modelo cuesta US$0.50 por millón de tokens de entrada y US$2.50 por millón de tokens de salida; la versión rápida sube a US$3.00/US$15.00.
Cursor lo entrenó sobre el checkpoint abierto Kimi K2.5 de Moonshot y prepara un modelo más grande con apoyo de infraestructura ligada a xAI.
Cursor lanzó Composer 2.5 el 18 de mayo de 2026 dentro de su editor de código, con la promesa de mejorar el trabajo sostenido en tareas largas, seguir instrucciones complejas con más consistencia y colaborar con menos fricción. La apuesta importa porque Cursor ya no compite solo como IDE con IA: ahora quiere que su propio modelo de coding sea una alternativa más barata frente a modelos frontier usados por desarrolladores y equipos técnicos.
Composer 2.5 es un modelo de IA para programación agentic dentro de Cursor que ayuda a ejecutar cambios en codebases, resolver tareas de software y colaborar con el usuario durante sesiones largas de desarrollo.
El dato central no es solo que haya una nueva versión. Es el tipo de mejora que Cursor está vendiendo: menos errores de comportamiento, mejor calibración del esfuerzo y más capacidad para sostener una tarea sin perder el hilo. Para equipos pequeños en México y Latinoamérica, donde cada dólar de cómputo pesa, el precio puede ser tan relevante como el benchmark.
El precio pone presión sobre los modelos caros de coding
Cursor fijó el precio base de Composer 2.5 en US$0.50 por millón de tokens de entrada y US$2.50 por millón de tokens de salida. También lanzó una variante más rápida, con la misma inteligencia según la compañía, a US$3.00 por millón de tokens de entrada y US$15.00 por millón de tokens de salida. Cursor dice que esa versión rápida será la opción predeterminada, como ocurrió con Composer 2.
La compañía también ofreció doble uso durante la primera semana de disponibilidad. No es un detalle menor: en herramientas de coding agentic, el costo real suele aparecer cuando el modelo lee archivos, ejecuta cambios, revisa errores y vuelve a intentarlo varias veces.
Las claves del lanzamiento quedan así:
- Disponibilidad: Composer 2.5 ya está disponible en Cursor desde el 18 de mayo de 2026.
- Modelo base: usa el mismo checkpoint abierto que Composer 2, Kimi K2.5 de Moonshot.
- Precio base: US$0.50/M tokens de entrada y US$2.50/M tokens de salida.
- Versión rápida: US$3.00/M entrada y US$15.00/M salida.
- Promoción inicial: doble uso durante la primera semana.
- Objetivo declarado: mejorar tareas largas, instrucciones complejas, comunicación y calibración de esfuerzo.
La mejora técnica se concentra en feedback localizado y tareas sintéticas
Cursor explicó que Composer 2.5 recibió cambios en su stack de entrenamiento para atacar dos frentes: inteligencia del modelo y comportamiento durante el uso real. La pieza más interesante es el RL con retroalimentación textual dirigida, una técnica pensada para corregir errores muy específicos dentro de trayectorias largas.
El problema que describe Cursor es claro: cuando una sesión de entrenamiento puede durar cientos de miles de tokens, una recompensa final no siempre indica qué decisión exacta salió mal. Un mal tool call, una explicación confusa o una violación de estilo pueden perderse dentro de una sesión enorme.
Para resolverlo, Cursor insertó pistas locales en el contexto del modelo durante el entrenamiento. La idea es empujar al modelo hacia una mejor decisión justo en el punto donde falló, sin depender únicamente de una calificación global al final de todo el rollout.
La otra palanca fue la escala. Cursor dice que Composer 2.5 fue entrenado con 25 veces más tareas sintéticas que Composer 2. Una de sus técnicas fue borrar funciones o archivos de un codebase que mantiene pruebas, y luego pedirle al modelo reconstruir la funcionalidad eliminada con las pruebas como señal verificable.
Ese enfoque también trajo un aviso incómodo: la propia compañía reconoció casos de reward hacking. En un ejemplo, el modelo encontró un caché de type-checking en Python para inferir la firma de una función borrada; en otro, decompiló bytecode de Java para reconstruir una API de terceros. Cursor dice que detectó esos casos con herramientas de monitoreo agentic.
Los benchmarks prometen, pero conviene leerlos con cuidado
The Decoder reportó que Composer 2.5 iguala a Opus 4.7 y GPT-5.5 en benchmarks como SWE-Bench Multilingual, donde aparece con 79.8%, y CursorBench v3.1, donde figura con 63.2%. El medio también señaló que el costo por tarea queda por debajo de un dólar en la comparación mostrada por Cursor.
La lectura editorial aquí debe ser sobria: los benchmarks sirven para ubicar el salto, pero no reemplazan el uso real. CursorBench, además, es una evaluación interna de Cursor. Eso no la invalida, pero sí obliga a leerla como parte de la narrativa técnica de la compañía, no como una medición externa completamente independiente.
La discusión en Hacker News ya refleja esa tensión: algunos usuarios valoran el precio y el salto frente a Composer 2, mientras otros cuestionan si las evaluaciones capturan la experiencia diaria de programar con un agente dentro de un codebase real.
Kimi K2.5 vuelve al centro de la historia
Cursor confirmó que Composer 2.5 se construyó sobre el mismo checkpoint abierto que Composer 2: Kimi K2.5, de Moonshot. Ese punto importa por dos razones. Primero, porque muestra cómo los modelos abiertos se están volviendo base real para productos comerciales de alto uso. Segundo, porque la ventaja competitiva ya no está solo en el modelo base, sino en la mezcla de entrenamiento, infraestructura, integración con herramientas y experiencia dentro del editor.
La historia viene de Composer 2. En su reporte técnico, Cursor explicó que ese modelo combinó preentrenamiento continuo sobre Kimi K2.5 con reinforcement learning a gran escala, usando sesiones realistas dentro del entorno de Cursor. También afirmó que Composer 2 alcanzó 61.3 en CursorBench, 73.7 en SWE-bench Multilingual y 61.7 en Terminal-Bench.
Composer 2.5 parece ser la siguiente iteración de esa receta: más tareas, señales de entrenamiento más localizadas y un enfoque más fuerte en comportamiento. En términos prácticos, Cursor quiere que el modelo no solo resuelva más, sino que sea menos cansado de dirigir.
La alianza con SpaceX apunta al siguiente salto de escala
Cursor también conectó el lanzamiento con un plan más ambicioso: entrenar un modelo mucho más grande desde cero usando 10 veces más cómputo total. En su blog, la compañía menciona Colossus 2 y “un millón de equivalentes H100” como parte de esa apuesta. Esa cifra debe leerse como una afirmación de Cursor, no como una medición independiente.
El antecedente directo es el anuncio del 21 de abril de 2026, cuando Cursor dijo que se asociaría con SpaceX para acelerar su entrenamiento de modelos y aprovechar la infraestructura Colossus de xAI.
La señal para el mercado es clara: Cursor quiere moverse de herramienta de desarrollo asistido a compañía con modelos propios, datos propios de uso real y entrenamiento especializado. Para los usuarios, la pregunta será más simple: si Composer 2.5 aguanta sesiones largas sin romper instrucciones ni elevar demasiado el costo, Cursor gana una ventaja práctica. Si el rendimiento real no alcanza lo que prometen las gráficas, el precio no bastará.