OpenRouter lanza Fusion y dice igualar a Fable a mitad de precio combinando modelos de IA
Fusion combina varios modelos de IA en paralelo y asegura rendir como Claude Fable 5 por la mitad del costo.
TL;DR:
- Fusion envía un mismo prompt a un panel de modelos en paralelo; un modelo juez compara las respuestas y un sintetizador escribe la final. Se invoca como un solo modelo:
openrouter/fusion. - En el benchmark DRACO (100 tareas), un panel de Fable 5 + GPT-5.5 marcó 69.0% y superó a Fable 5 en solitario (65.3%); un panel económico quedó a 0.6 puntos de Fable por aproximadamente la mitad del costo.
- OpenRouter calcula que unas tres cuartas partes de la mejora vienen del paso de síntesis, no de mezclar modelos. El lanzamiento coincide con la suspensión de Fable y Mythos.
OpenRouter presentó Fusion, una herramienta que envía un mismo prompt a varios modelos de IA en paralelo, deja que un modelo "juez" compare sus respuestas y devuelve una sola contestación ya sintetizada. La compañía la lanzó el 12 de junio de 2026 y la promociona como una vía para lograr "inteligencia de nivel Fable a la mitad del precio". El respaldo es un benchmark de investigación profunda: un panel de tres modelos económicos quedó a menos de un punto de Claude Fable 5 —el modelo más caro del experimento— por casi la mitad del costo. Y el momento no es casualidad. Fusion llega justo cuando Fable quedó fuera de circulación tras una orden de Washington que apuntaba precisamente a los usuarios extranjeros, una categoría en la que cae buena parte de la audiencia hispanohablante.
Cómo funciona: un panel de modelos y un juez que los compara
Fusion es un modelo compuesto que reparte un mismo prompt entre varios modelos de IA, los analiza con un modelo juez y entrega una sola respuesta. En lugar de apostar a un solo sistema, lanza la pregunta a un panel que responde a la vez, cada uno con búsqueda web activada. Después, el juez lee todas las respuestas y arma un análisis estructurado —en qué coinciden, dónde se contradicen, qué cubrió cada uno y qué se les escapó— y un sintetizador redacta la versión final apoyada en ese mapa. Todo corre del lado del servidor, así que se pide igual que cualquier otro modelo: basta con escribir openrouter/fusion.
El panel no es fijo. Quien integra Fusion puede armar su propia alineación de modelos participantes y elegir cuál hace de sintetizador, o dejar que el modelo decida solo cuándo conviene activar la herramienta. OpenRouter ofrece dos presets listos para usar: uno "de calidad", con modelos de primera línea, y uno "económico", con opciones más baratas.
En DRACO, el mejor panel llegó a 69% (con una advertencia)
Para medir Fusion, OpenRouter usó DRACO, un benchmark de investigación profunda creado por Perplexity AI con 100 tareas repartidas en diez áreas: investigación académica, finanzas, derecho, medicina, tecnología, diseño UX, conocimiento general, búsqueda tipo "aguja en un pajar", asistencia personalizada y comparación de productos. Cada tarea se califica contra unos 39 criterios con peso variable, y algunos restan: una respuesta larga pero vacía, o que afirma cosas falsas con seguridad, pierde puntos en lugar de ganarlos.
Estos fueron los resultados principales, en puntaje normalizado de 0 a 100:
- Fable 5 + GPT-5.5, sintetizados por Opus 4.8: 69.0%, el más alto de toda la tabla.
- Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro: 68.3%.
- Opus 4.8 + GPT-5.5: 67.6%.
- Opus 4.8 emparejado consigo mismo: 65.5%.
- Claude Fable 5 en solitario: 65.3%.
- Panel económico (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro): 64.7%.
- Por debajo, en solitario: DeepSeek V4 Pro (60.3%), GPT-5.5 (60.0%), Opus 4.8 (58.8%), Kimi K2.6 (53.7%), Gemini 3.1 Pro (45.4%) y Gemini 3 Flash (43.1%).
Hay una advertencia que OpenRouter no esconde. Siete de las 100 tareas no se completaron porque los filtros de contenido de Fable 5 las bloquearon, y la empresa decidió no sustituirlas con Opus 4.8. El puntaje de Fable refleja entonces 93 tareas, no las 100 completas, así que compararlo de forma directa contra modelos que sí hicieron todas queda un poco disparejo.
Hubo otro tropiezo durante las pruebas. Al darles búsqueda web, algunos modelos empezaron a encontrar en línea la propia rúbrica de calificación de DRACO. OpenRouter lo detectó, bloqueó esos dominios para todos los modelos con un cambio de configuración y repitió la medición; los números publicados corresponden a esa versión limpia.
La mayor parte de la mejora viene de la síntesis, no de mezclar modelos
El dato más interesante del reporte no es que combinar marcas distintas funcione, sino dónde nace la ganancia. OpenRouter corrió a Opus 4.8 emparejado consigo mismo —el mismo modelo dos veces, con Opus también de sintetizador— y el puntaje saltó de 58.8% a 65.5%, casi siete puntos, sin sumar ningún modelo distinto. La explicación que ofrece: correr el mismo prompt dos veces produce caminos de razonamiento distintos, búsquedas distintas, selección de fuentes distinta, y el paso de síntesis aprovecha esa variación.
Según la cobertura de OfficeChai, OpenRouter calcula que cerca de tres cuartas partes de la mejora de Fusion vienen de ese paso de síntesis —combinar lo que produjeron los modelos— y solo el cuarto restante, de la diversidad entre ellos. En su anuncio, la empresa lo resumió así:
"Hemos descubierto que sintetizar los resultados de varios modelos puede superar de forma significativa lo que los modelos individuales son capaces de lograr."
La "mitad de precio" tiene letra chica
Conviene leer con cuidado lo de "la mitad del precio". Fusion no cobra una suscripción fija: el usuario paga la suma de las llamadas que hace por debajo. Si el panel usa cuatro modelos, paga cuatro respuestas. Según la documentación de OpenRouter, un panel de tres modelos cuesta del orden de cuatro a cinco veces lo que una sola respuesta sobre el mismo prompt, y el costo crece de forma lineal con el tamaño del panel.
Entonces, ¿de dónde sale la mitad de precio? De la comparación contra Fable, no contra un modelo barato cualquiera. Fable 5 es un modelo premium —10 dólares por millón de tokens de entrada y 50 por millón de salida—, así que tres modelos económicos corriendo juntos pueden salir más baratos que una sola llamada a Fable. La cuenta cambia por completo según el panel que elijas: en una prueba publicada en Hacker News, un desarrollador midió Fusion con el preset de calidad y le resultó siete veces más lento y cuatro veces más caro que llamar a un modelo de frontera directamente. Tiene lógica, porque ese preset usa tres modelos de primera línea más un cuarto que sintetiza.
Ese sintetizador, por cierto, suele ser Opus 4.8 por defecto. Varios usuarios notaron en sus registros cargos por llamadas a Opus que ni siquiera habían seleccionado; ahí está la explicación.
Por qué pega justo ahora: Fable desapareció para los usuarios fuera de EE. UU.
El telón de fondo le da urgencia a todo esto. La semana pasada, Anthropic suspendió el acceso a Fable 5 y a su hermano mayor Mythos 5 tras una directiva de control de exportaciones del Departamento de Comercio de EE. UU. que, según los reportes, ordenaba bloquear el acceso a cualquier persona extranjera, dentro o fuera del país. Como filtrar caso por caso era inviable, Anthropic desactivó ambos modelos para todos los usuarios; el resto de los modelos Claude, como Opus 4.8, siguió funcionando. La compañía dice estar en desacuerdo con la orden y trabajar para restaurar el acceso, sin fecha por ahora.
El detalle no es menor para los lectores de habla hispana: España, América Latina y buena parte de la comunidad hispana fuera de Estados Unidos caen dentro de esa categoría de "usuarios extranjeros" que apuntaba la orden, y en la práctica perdieron Fable junto con todos los demás. En Europa la reacción fue de alarma; Euronews describió el episodio como una "llamada de atención" sobre quién controla la infraestructura donde corre la IA.
El trasfondo sigue en disputa. El funcionario David Sacks sostiene que Anthropic fue advertida y no actuó; Anthropic responde que la vulnerabilidad era menor, ya conocida y presente también en otros modelos públicos. Sin entrar a dirimir quién tiene razón, el resultado práctico es el mismo: el modelo que ancló el benchmark de Fusion ya no está disponible para la mayoría. Y ahí encuentra Fusion su mejor argumento, un panel que se acerca a Fable usando modelos que no cargan las mismas restricciones de exportación.
Lo que el benchmark no mide y cómo reaccionó la comunidad
Vale la pena aterrizar la euforia. DRACO mide investigación, no programación: entre sus diez áreas no hay una sola de código, así que estos resultados no dicen nada sobre cómo rinde Fusion escribiendo software. Tampoco es una idea nueva. Combinar varios modelos con un juez —lo que la literatura llama "mixture of agents"— existe desde 2024, y en Hacker News varios desarrolladores señalaron que algo parecido se arma sin demasiada dificultad.
La reacción de la comunidad fue tibia y curiosa a partes iguales. Hubo quien repitió con Fusion la misma consulta que había hecho con Fable y la sintió peor: contó que Fable llegaba a una capa de profundidad que Fusion no alcanzaba, e incluso priorizaba y descartaba ideas por su cuenta. Otros le ven sentido para casos puntuales —redactar una especificación técnica y buscarle huecos antes de programar, donde son pocos tokens y conviene tirarles todo el cómputo posible—. Y más de uno resumió el veredicto en una frase: úsalo solo cuando de verdad lo necesites.
Más allá del momento, Fusion apunta a una idea que se viene repitiendo: cuando un solo modelo no alcanza, combinar y sintetizar varios puede cerrar la brecha tan bien como un modelo más potente. Para quien desarrolla desde fuera de Estados Unidos y se quedó sin Fable, no es la solución perfecta, pero sí una red de seguridad concreta, siempre que tenga claro qué paga y para qué la usa.