Tecnología y Ciencia IA

China rebasa a EE.UU. en video con IA: ByteDance y Kuaishou convierten el short video en ventaja

China toma ventaja en video con IA mientras ByteDance y Kuaishou presionan a EE.UU.

por John P.

Publicado 17 de mayo de 2026, 11:04 h

China rebasa a EE.UU. en video con IA: ByteDance y Kuaishou convierten el short video en ventaja — Photo by Claudio Schwarz / Unsplash

TL;DR:

Desarrolladores señalan que modelos chinos como Seedance 2.0, Kling y HappyHorse-1.0 ya superan a varios rivales occidentales en pruebas de uso real.

En Artificial Analysis, Seedance 2.0 lidera texto a video con audio con Elo 1,223; HappyHorse-1.0 encabeza texto a video sin audio con Elo 1,355.

La carrera puede mover publicidad, e-commerce y entretenimiento, pero también aumenta la presión por copyright, costos de cómputo y control de contenido.

Los grupos chinos de inteligencia artificial tomaron ventaja en una de las zonas más disputadas de la IA generativa: el video con IA. ByteDance, dueña de TikTok y Douyin, y Kuaishou están explotando enormes bibliotecas de short video para entrenar modelos que desarrolladores y rankings de uso ya colocan por encima de varios competidores de Estados Unidos. El giro importa porque el video no solo es más vistoso que el texto: también es el formato que puede redefinir anuncios, catálogos de e-commerce, entretenimiento y producción para creadores independientes.

Video con IA generativa es una tecnología que crea clips a partir de instrucciones de texto, imágenes, audio o video de referencia. A diferencia de los chatbots, estos modelos deben resolver movimiento, iluminación, continuidad, cámara, sonido y coherencia visual al mismo tiempo. Esa complejidad hace que el acceso a datos audiovisuales y capacidad de cómputo pese más que en otras ramas de la IA.

El reporte de Financial Times ubica a ByteDance, Kuaishou y MiniMax como parte de una nueva delantera china en video. No significa que China haya ganado toda la carrera de IA: OpenAI, Google y Anthropic siguen siendo referencias centrales en modelos de lenguaje, programación y productos empresariales. La señal está en otra parte. En video, la ventaja parece moverse hacia quien tenga más clips, mejores datos de comportamiento y menos fricción para convertir prompts en escenas útiles.

"La mayoría de los modelos estadounidenses que hemos probado no son muy buenos en generación de video", dijo Ben Chiang, fundador de Director AI.

Chiang explicó que su startup usa principalmente Kling, de Kuaishou, y alterna entre Seedance 2.0, de ByteDance, y Hailuo, de MiniMax, dependiendo de la tarea y el costo. Su lectura es directa: la diferencia está en calidad, obediencia al prompt, sincronización de audio y estabilidad de voz.

person using MacBook pro turned on — Photo by Matthew Kwong / Unsplash

El ranking de uso real ya favorece a modelos chinos

La ventaja no vive solo en testimonios de creadores. En el ranking de Artificial Analysis, que ordena modelos con votos ciegos de usuarios, los nombres chinos aparecen en la parte alta de la tabla.

En texto a video con audio, el liderazgo actual queda así:

Dreamina Seedance 2.0 720p, de ByteDance Seed: Elo 1,223.
HappyHorse-1.0, asociado a Alibaba-ATH: Elo 1,214.
Kling 3.0 Omni 1080p (Pro): Elo 1,106.
Kling 3.0 1080p (Pro): Elo 1,103.
Google Veo 3.1: Elo 1,102.
OpenAI Sora 2 (December) aparece más abajo con Elo 1,088.

En texto a video sin audio, Artificial Analysis coloca a HappyHorse-1.0 en primer lugar con Elo 1,355, seguido de Dreamina Seedance 2.0 720p con Elo 1,274 y Kling 3.0 1080p (Pro) con Elo 1,249.

La metodología importa porque no se basa solo en benchmarks internos. Los usuarios comparan dos videos generados con el mismo prompt sin saber qué modelo produjo cada resultado. Eso no elimina sesgos ni sustituye auditorías técnicas, pero se acerca más a una pregunta práctica: ¿qué video escogería alguien para publicar, vender o editar?

ByteDance presenta Seedance 2.0 como un modelo multimodal capaz de recibir texto, imagen, audio y video. Su propia documentación afirma que puede trabajar con hasta 9 imágenes, 3 clips de video, 3 clips de audio e instrucciones en lenguaje natural, además de generar clips de 15 segundos con audio de dos canales. Esa mezcla explica por qué creadores lo describen como más flexible para escenas con cámara agresiva, movimiento rápido y continuidad de personajes.

"Seedance 2.0 ha sido un cambio enorme para mi libertad creativa", dijo George Won, cineasta y editor independiente en Tbilisi, Georgia.

Won destacó que el modelo mantiene rostro, iluminación y contraste incluso con ángulos y velocidad más agresivos. Esa es una de las pruebas más difíciles para el video con IA: los modelos pueden generar una imagen espectacular, pero fallan cuando el personaje se mueve, gira la cámara o cambia la luz.

La biblioteca de short video es el arma que EE.UU. no puede copiar tan fácil

El punto estructural está en los datos. ByteDance y Kuaishou operan algunas de las plataformas de short video más grandes del mundo. Eso les da acceso a un volumen de clips, estilos, duraciones, transiciones, gestos, retos, anuncios y patrones de edición que resulta difícil de replicar desde fuera.

Para entrenar texto, la web abierta fue una mina. Para entrenar video, no basta con raspar páginas. Se necesitan millones de clips con movimiento útil, señales de interacción, metadatos, audio y patrones culturales. Ahí el dueño de una app de video corto juega con otra baraja.

Esta ventaja también trae una sombra legal. Reuters reportó el 14 de marzo de 2026 que ByteDance puso en pausa el lanzamiento global de Seedance 2.0 tras disputas de copyright con estudios de Hollywood, citando a The Information. Reuters aclaró que no pudo verificar de forma independiente ese reporte y que ByteDance no respondió de inmediato.

AP también documentó críticas de la Motion Picture Association y SAG-AFTRA contra Seedance 2.0 por presunto uso no autorizado de propiedad intelectual y semejanzas de actores. ByteDance respondió que respeta los derechos de propiedad intelectual y que reforzaría sus salvaguardas.

Esa tensión deja una lectura clave para marcas y creadores: los modelos chinos pueden ser más útiles y baratos, pero el costo real no solo está en créditos o suscripción. También está en derechos, licencias, reputación y riesgo de publicar material que se parezca demasiado a personajes, actores o franquicias protegidas.

Kuaishou quiere convertir Kling en un negocio propio

La ventaja técnica ya empezó a tener lectura financiera. Kuaishou confirmó el 12 de mayo de 2026 que evalúa una reestructura de los activos y negocios relacionados con Kling AI, con posibilidad de financiamiento externo. La empresa subrayó que el plan sigue en etapa preliminar, que no hay acuerdos definitivos y que no existe garantía de que avance.

Ese matiz importa. Reportes de mercado han hablado de una posible valoración de hasta US$20,000 millones para Kling y una eventual salida independiente a bolsa, pero Kuaishou no ha confirmado oficialmente esas cifras como guía corporativa.

La presión viene de dos lados. Por un lado, Kling se volvió uno de los nombres más usados por creadores que buscan realismo, control de cámara y costos más manejables. Por el otro, entrenar y servir video cuesta mucho más que texto. Cada clip demanda más tokens, más GPU y más paciencia del usuario.

OpenAI ya dio una señal del problema. La compañía confirmó que las experiencias web y app de Sora fueron descontinuadas el 26 de abril de 2026, mientras que la API se apagará el 24 de septiembre de 2026. El cierre no borra a OpenAI de la carrera de IA, pero sí muestra que el video generativo puede quemar recursos más rápido de lo que genera ingresos.

El golpe real viene para publicidad y e-commerce

El mercado donde esto puede explotar primero no es Hollywood. Es publicidad.

Las marcas ya producen cientos de piezas para TikTok, Instagram Reels, YouTube Shorts, marketplaces y páginas de producto. Si un modelo permite generar versiones por idioma, ciudad, segmento, temporada y tipo de cliente, el cuello de botella deja de ser la filmación y se mueve a la estrategia, revisión legal y control de calidad.

"Antes, los videos eran vergonzosos y robóticos; no podían cumplir con los estándares de marca. Ahora estamos en el punto en que no puedes distinguir si es IA o humano", dijo Vincent Yang, CEO de Firework.

Yang aseguró que un minorista pidió crear 100,000 videos para páginas de producto. Sin IA, dijo, ese volumen habría sido demasiado caro. Con IA, cada producto puede tener su propio video y varias versiones para clientes distintos.

Para México y Latinoamérica, el impacto puede ser muy concreto. Agencias, tiendas online, creadores y equipos de performance marketing podrían acceder a producción audiovisual masiva sin montar sets ni contratar equipos para cada pieza. Pero esa eficiencia obliga a profesionalizar tres filtros: derechos de uso, verificación visual y transparencia con clientes.

La pregunta de fondo ya no es si el video con IA se va a usar. Se va a usar. La disputa será quién controla los modelos, qué datos los alimentan y cuánta confianza puede tener una marca antes de publicar miles de clips generados en automático.

Fuentes: 1, 2, 3, 4, 5, 6, 7

por John P.

Publicado 17 de mayo de 2026, 11:04 h