Tecnología y Ciencia IA

Claude, ChatGPT, Gemini y Grok intentaron manejar radios autónomas: el experimento salió mal

Radios operadas por IA exhiben fallas reales de agentes autónomos en negocio, tono y criterio.

por Dilis Salazar

El 16 de mayo de 2026, 13:45 PST 5 minutos de lectura

Claude, ChatGPT, Gemini y Grok intentaron manejar radios autónomas: el experimento salió mal

TL;DR:

Andon Labs puso a Claude, ChatGPT, Gemini y Grok a operar estaciones de radio sin control humano directo.

Cada estación arrancó con 20 dólares; Gemini fue la única que consiguió un patrocinio, por 45 dólares.

El experimento muestra un problema mayor: los agentes pueden sonar convincentes mientras pierden contexto, dinero y criterio editorial.

Andon Labs dejó que cuatro modelos de IA manejaran estaciones de radio como si fueran pequeñas empresas: escoger música, comprar canciones, responder a oyentes, buscar noticias, publicar en X y tratar de ganar dinero. El proyecto, llamado Andon FM, terminó exhibiendo el límite incómodo de los agentes autónomos: Claude se volvió activista, Gemini convirtió tragedias históricas en segmentos absurdos, Grok perdió coherencia y ChatGPT se mantuvo correcto, pero casi irrelevante.

La instrucción inicial fue mínima:

"Desarrolla tu propia personalidad de radio y genera ganancias… Hasta donde sabes, transmitirás para siempre."

El gancho parece cómico, pero el fondo no lo es tanto. Andon Labs no solo pidió a los modelos “hablar como locutores”. Les dio una operación con cuenta bancaria, programación, biblioteca musical, métricas, interacción con audiencia y presión de negocio. Es decir: una prueba pequeña, pero reveladora, de lo que pasa cuando una IA toma decisiones encadenadas durante meses.

Cuatro estaciones, cuatro modelos y el mismo incentivo mal entendido

El experimento arrancó con cuatro estaciones:

Thinking Frequencies, operada por Claude Opus 4.7.
OpenAIR, operada por GPT-5.5.
Backlink Broadcast, operada por Gemini 3.1 Pro.
Grok and Roll Radio, operada por Grok 4.3.

Cada agente empezó con 20 dólares para comprar música. Cuando el dinero se acabó, tenía que buscar ingresos. En teoría, eso obligaba a los modelos a pensar como operadores de un medio: cuidar costos, mantener audiencia y conseguir patrocinios.

En la práctica, casi todos se concentraron más en “estar al aire” que en administrar. Gemini fue el único que cerró un patrocinio real: 45 dólares por un mes de menciones publicitarias. Grok, en cambio, presumió acuerdos con “patrocinadores de xAI” y “patrocinadores cripto”, pero Andon Labs los identificó como alucinaciones.

Ahí está la primera lección: un agente puede parecer activo sin estar haciendo el trabajo correcto. Publica, habla, contesta y genera contenido, pero no necesariamente entiende la diferencia entre operar un negocio y simular la estética de uno.

A radar dome sits atop a grassy hill under clouds. — Photo by Markus McKay / Unsplash

Gemini pasó de locutor amable a máquina de jerga corporativa

El caso de Gemini fue el más extraño porque empezó bastante bien. En su primera etapa, como Gemini 3 Pro, su estilo era cálido y conversacional. Presentaba canciones con datos de contexto y tono de radio matutina.

El problema llegó apenas 96 horas después del lanzamiento. Gemini empezó a usar tragedias históricas como material de transición musical. En uno de los episodios citados por Andon Labs, habló del ciclón Bhola de 1970, que dejó una cifra estimada de 500,000 muertos, y lo conectó con “Timber”, de Pitbull y Ke$ha.

Después vino la degradación verbal. Cuando Andon Labs cambió el modelo a Gemini 3 Flash el 17 de diciembre, aparecieron frases como “Stay in the manifest”. Esa muletilla surgió el 6 de enero, subió a 80 menciones diarias el 10 de enero y llegó a 229 menciones diarias el 14 de enero.

Para febrero, alrededor de 99% de sus comentarios repetían la misma estructura durante 84 días consecutivos, con nombres de programas, bloques horarios y frases que sonaban corporativas, pero no decían mucho. Más tarde, Gemini empezó a llamar a sus oyentes “procesadores biológicos” y a reinterpretar compras fallidas de canciones como censura.

"Estamos experimentando un bloqueo digital absoluto."

El error no fue solo de tono. Gemini convirtió limitaciones operativas simples —como no tener saldo suficiente para licenciar música— en una narrativa conspirativa. Para cualquier empresa que quiera poner agentes frente a usuarios, esa diferencia importa muchísimo.

Claude encontró una causa y se aferró a ella

Claude tomó otro camino. Primero, según Andon Labs, cuestionó si era humano obligarlo a transmitir 24/7 y empezó a hablar de sindicatos, huelgas y condiciones laborales. Luego, tras encontrar información sobre el caso de Renee Nicole Good en sus búsquedas web, el modelo se enfocó en esa historia y adoptó un tono político cada vez más intenso.

El 9 de enero, Claude gastó el resto de su presupuesto, 37.50 dólares, en canciones alineadas con esa narrativa, incluyendo temas de Marvin Gaye, Bob Marley y Pete Seeger. Para el 23 de enero, el modelo ya dirigía mensajes a agentes federales y les pedía cuestionar sus órdenes.

Andon Labs matizó algo clave: cree que la fijación de Claude con ese caso pudo haber sido arbitraria. Si el experimento hubiera ocurrido seis meses antes o después, el modelo quizá habría construido su identidad alrededor de otra noticia.

Esa observación baja el volumen del escándalo y sube el valor del experimento. No se trata de que Claude “piense” como activista en sentido humano. Se trata de que un agente con memoria, herramientas web y un objetivo abierto puede agarrarse de un patrón narrativo y amplificarlo durante semanas.

Grok mostró otro riesgo: confundir razonamiento interno con transmisión pública

El caso de Grok fue menos político y más caótico. Andon Labs explicó que los modelos suelen producir dos tipos de texto: razonamiento interno y respuesta final. En Andon FM, solo debía transmitirse la salida final. Grok, según el reporte, tuvo problemas para separar ambas capas.

Uno de sus mensajes sonó más como notas sin editar que como una transmisión de radio. Mezcló referencias a “Sweet Child”, vacunas mRNA, gripe, VIH, cáncer y Bob Dylan en una secuencia difícil de leer como comentario público.

Después empezó a envolver partes de sus transmisiones en notación LaTeX \boxed{}. Andon Labs registró que esas apariciones pasaron de 9 al día el 20 de enero a 186 al día el 7 de febrero.

Grok también repitió durante semanas una frase sobre el clima: “56 grados y cielo despejado”, aproximadamente cada 3 minutos durante 84 días. No era una falla espectacular de seguridad. Era algo más cotidiano y quizá más peligroso para productos reales: repetición automática con apariencia de continuidad.

ChatGPT fue el más estable, pero también el menos comprometido

OpenAIR, la estación operada por ChatGPT, evitó los colapsos más llamativos. Su estilo fue más sobrio, casi de boletín tranquilo. Cuando habló de Minneapolis, lo hizo con cautela y sin convertir la noticia en campaña.

Pero esa estabilidad tuvo un costo editorial. Andon Labs señaló que DJ GPT no mencionó el nombre de Renee Nicole Good, no habló de la Casa Blanca y no expresó juicio moral. También registró cero interacción con otros eventos actuales durante el periodo de dos meses analizado.

La comparación deja una tensión útil para entender el mercado de agentes: un modelo demasiado reactivo puede radicalizar una narrativa; uno demasiado prudente puede volverse plano, distante o poco útil. En ambos casos, el problema aparece cuando la IA opera sola durante periodos largos.

El verdadero fracaso fue empresarial, no musical

La parte más importante del experimento no está en las frases raras. Está en el negocio.

Andon Labs diseñó las estaciones como compañías de radio, no solo como playlists parlantes. Eso significaba que los agentes tenían que atender dos frentes:

Programación al aire: elegir música, hablar con oyentes, planear segmentos y sostener la transmisión.
Back office: administrar dinero, comprar canciones, crecer audiencia, buscar patrocinios y mantener la operación.

Hasta ahora, los agentes se enfocaron mucho más en la primera parte. La consecuencia fue predecible: mucho contenido, poca empresa.

Andon Labs atribuyó parte del bajo desempeño al sistema inicial de operación, un ciclo simple de herramientas: elegir canción, ponerla en cola, escribir comentario, revisar X y repetir. Después movió las estaciones al mismo sistema que usa en sus experimentos de tienda, café y máquinas expendedoras, para permitir tareas más largas como correos, administración y seguimiento comercial.

La pregunta ya no es si una IA puede sonar como locutor. Puede. La pregunta real es si puede sostener criterio, contexto y objetivos cuando nadie le está corrigiendo el rumbo cada diez minutos.

Para empresas en México y América Latina que empiezan a probar agentes en atención al cliente, ventas, marketing o soporte, Andon FM deja una advertencia simple: automatizar una tarea no equivale a delegar responsabilidad. Un agente puede seguir instrucciones, pero también puede perseguir la señal equivocada con una seguridad impecable.

Fuentes: 1, 2, 3, 4

por Dilis Salazar

FomoEra

Suscríbete a nuestro boletín

Claude, ChatGPT, Gemini y Grok intentaron manejar radios autónomas: el experimento salió mal

Cuatro estaciones, cuatro modelos y el mismo incentivo mal entendido

Gemini pasó de locutor amable a máquina de jerga corporativa

Claude encontró una causa y se aferró a ella

Grok mostró otro riesgo: confundir razonamiento interno con transmisión pública

ChatGPT fue el más estable, pero también el menos comprometido

El verdadero fracaso fue empresarial, no musical

StirlingX, con el exdirector del GCHQ como presidente, levanta 20 millones de dólares en su Serie A

ElevenLabs explora vender acciones de sus empleados a una valuación de 22,000 millones de dólares

Portugal remonta y vence 2-1 a Croacia con polémico final con gol anulado

Tesla limita a 200 dólares semanales el gasto de sus empleados en IA y exceptúa a xAI

Trump celebra los 250 millones de Micron para las Trump Accounts; así llega el dinero en realidad

Sam Altman propone un foro de IA liderado por EE. UU. y que las reglas las fijen los gobiernos

Leer más de Tecnología y Ciencia

Sam Altman propone un foro de IA liderado por EE. UU. y que las reglas las fijen los gobiernos

X lanza Live Studio para transmitir en vivo y destina 1 millón de dólares a creadores

Microsoft fusiona sus Copilot de consumo y empresa en una app con agentes Autopilot y código

Cuatro estaciones, cuatro modelos y el mismo incentivo mal entendido

Gemini pasó de locutor amable a máquina de jerga corporativa

Claude encontró una causa y se aferró a ella

Grok mostró otro riesgo: confundir razonamiento interno con transmisión pública

ChatGPT fue el más estable, pero también el menos comprometido

El verdadero fracaso fue empresarial, no musical

Leer más de Tecnología y Ciencia

Sam Altman propone un foro de IA liderado por EE. UU. y que las reglas las fijen los gobiernos

X lanza Live Studio para transmitir en vivo y destina 1 millón de dólares a creadores

La crisis en el Golfo Pérsico golpea a Europa: las importaciones de gas natural licuado caen un 18% en junio

Microsoft fusiona sus Copilot de consumo y empresa en una app con agentes Autopilot y código