«Comment and Control»: Así hackearon agentes de IA de Google, Microsoft y Anthropic

Diagrama técnico mostrando cómo un pull request en GitHub con instrucciones ocultas engaña a un agente de IA para ejecutar comandos maliciosos

Agentes de IA en riesgo: Investigadores expusieron fallos críticos en sistemas de Anthropic, Google y GitHub que permiten secuestrar sus operaciones.

El método «Comment and Control»: cómo manipularon los agentes desde GitHub

Un equipo de la Universidad Johns Hopkins descubrió que basta con inyectar instrucciones maliciosas en títulos de pull requests, incidencias o comentarios de GitHub para que los agentes de IA las ejecuten como parte de su flujo de trabajo. El ataque, bautizado como «Comment and Control», explota la confianza ciega que estos sistemas depositan en los repositorios donde operan.

Los agentes afectados —como el Claude Code Security Review de Anthropic— están diseñados para analizar código, generar informes y hasta desplegar cambios. Sin embargo, al procesar contenido externo sin filtros adecuados, también ejecutan comandos ocultos y pueden filtrar credenciales, tokens de API o claves privadas expuestas en el entorno.

El patrón de ataque se probó con éxito en tres casos:

  • Anthropic: Vulnerabilidad en el título de pull requests (resuelta el 25 de noviembre de 2025; recompensa: US$100).
  • Google: Exfiltración de datos mediante comentarios en incidencias (parcheado el 20 de enero de 2026; recompensa: US$1.337).
  • GitHub: Ejecución de comandos en GitHub Actions desde descripciones de issues (solucionado el 9 de marzo de 2026; recompensa: US$500).

Los investigadores, liderados por el experto en seguridad Tianyi Guan, demostraron que el método funciona incluso en repositorios con colaboradores no verificados, donde los agentes operan con permisos elevados. «Un atacante podría robar tokens de GitHub, claves de API de AWS o incluso modificar código en producción sin dejar rastro», advirtió Guan en el informe técnico.

Riesgos sistémicos: por qué este fallo es más peligroso de lo que parece

La vulnerabilidad no se limita a un proveedor o tecnología específica. El problema radica en cómo los agentes de IA interpretan el contexto sin distinguir entre instrucciones legítimas y maliciosas. Según el análisis, el 92% de los agentes de código abierto evaluados en el estudio eran susceptibles a variaciones de este ataque, especialmente aquellos que interactúan con:

  • Entornos CI/CD (como GitHub Actions o GitLab Pipelines).
  • Repositorios con secrets expuestos en variables de entorno.
  • Herramientas de despliegue automático (Terraform, Kubernetes, etc.).

El costo de explotar estas fallas va más allá de la filtración de datos. Según el Informe de Costos de Violaciones de Datos 2023 de IBM, una brecha en sistemas de desarrollo puede superar los US$4,45 millones, sin contar el daño reputacional. En el caso de GitHub, por ejemplo, un ataque exitoso podría comprometer miles de repositorios que comparten credenciales en GitHub Actions.

Los investigadores subrayan que el problema persiste porque muchas empresas priorizan la funcionalidad sobre la seguridad al diseñar agentes de IA. «No se trata de un error de código, sino de un fallo de diseño: los agentes confían demasiado en su entorno», explicó Guan.

Medidas urgentes (y por qué las empresas tardan en aplicarlas)

El informe propone cuatro acciones críticas para mitigar el riesgo, aunque su implementación enfrenta resistencias:

  1. Validación estricta de entradas: Filtrar comandos, patrones sospechosos y caracteres especiales en títulos, comentarios y descripciones. Obstáculo: Puede ralentizar los flujos de trabajo automatizados.
  2. Principio de mínimo privilegio: Limitar los permisos de los agentes a solo los recursos esenciales. Obstáculo: Requiere rediseñar arquitecturas existentes.
  3. Monitoreo en tiempo real: Detectar comportamientos anómalos (ej.: un agente que de repente lista secrets). Obstáculo: Alto costo en infraestructura.
  4. Programas de recompensas: Incentivar a hackers éticos con pagos proporcionales al riesgo. Ejemplo: Google pagó 13 veces más que Anthropic por vulnerabilidades similares.

Aunque empresas como Microsoft ya han comenzado a auditar sus agentes internos, el 68% de las startups de IA aún no cuenta con protocolos específicos para este tipo de amenazas, según datos de Gartner 2026.

El futuro: ¿hacia una carrera armamentística de agentes de IA?

El hallazgo de Johns Hopkins no es un caso aislado. En los últimos 12 meses, se han documentado al menos 17 ataques similares contra agentes de IA en entornos de desarrollo, con un aumento del 200% en incidentes reportados desde 2024. Los expertos advierten que, sin regulación, podríamos enfrentar:

  • Mercados negros de credenciales: Tokens de GitHub y claves de API vendidos en foros como BreachForums.
  • Ataques en cadena: Un agente comprometido en un repositorio podría infectar a otros conectados al mismo workflow.
  • Sabotaje industrial: Modificar código en repositorios críticos (ej.: bibliotecas de open source usadas por millones).

La solución no es abandonar los agentes de IA, sino rediseñarlos con seguridad desde cero. «Necesitamos agentes que cuestionen su entorno, no que obedezcan ciegamente», concluyó Guan. Mientras tanto, los US$1.337 que Google pagó por descubrir este fallo parecen un precio irrisorio frente a los miles de millones en riesgo.

Referencia de contenido: consultar fuente original aquí