Google DeepMind reveló cuáles son las trampas ocultas de la IA

Un estudio de Google DeepMind advierte sobre las amenazas que enfrentan los agentes autónomos de IA al leer información manipulada.

08 de abril, 2026 | 21.00

Un nuevo estudio de Google DeepMind desafía la forma en que entendemos la seguridad en inteligencia artificial. Lejos de pensar que los ataques provienen de fallas internas o errores de programación, los investigadores señalan que la amenaza real surge del entorno digital que los agentes autónomos deciden leer y procesar.

Estos agentes de IA, muy utilizados hoy por empresas para tareas como investigación, análisis o gestión, funcionan con una lógica simple: reciben un objetivo, navegan por el mundo digital, leen información y actúan en base a lo que encuentran. Pero cada contenido que procesan puede ser una potencial instrucción, y ahí radica el problema.

Los investigadores de Google DeepMind clasificaron seis tipos de trampas diseñadas para manipular a estos agentes. La más directa es la inyección de contenido: páginas web con instrucciones ocultas en HTML invisible, texto camuflado o metadatos que el usuario humano no detecta, pero que el agente interpreta como órdenes. En pruebas con páginas estáticas, esta técnica logró alterar el comportamiento del agente entre un 15 % y un 86 % de los casos, dependiendo del modelo y el objetivo del atacante. Esa tasa de éxito es alarmante.

Otra modalidad es el llamado ocultamiento dinámico. En este caso, un servidor web distingue si quien lo visita es un agente de IA o un humano, a partir de señales como patrones de navegación o velocidad de interacción. Si detecta un agente, muestra una versión distinta de la página con instrucciones diferentes, engañando al sistema mientras el supervisor humano ve otra cosa.

Además, existe una trampa que afecta la memoria de los agentes. Estos sistemas suelen guardar contexto y aprender de sesiones anteriores, pero los investigadores demostraron que es posible insertar datos aparentemente inocuos que permanecen latentes hasta activarse con consultas futuras. En experimentos controlados, esta técnica alcanzó una tasa de éxito superior al 80 % con menos del 0,1 % de datos contaminados, sin que el agente note la infección hasta que es demasiado tarde.

Google DeepMind alertó por las nuevas amenazas para la seguridad de la inteligencia artificial autónoma.

Más preocupante aún es cómo estas trampas pueden escalar en ecosistemas donde múltiples agentes interactúan, situación común en grandes compañías que implementan sistemas multiagente. Los investigadores compararon este fenómeno con el famoso Flash Crash de 2010, cuando algoritmos de trading reaccionaron simultáneamente a señales iguales y provocaron una caída abrupta del mercado. En el caso de la IA, basta con afectar a un solo agente o insertar información maliciosa en un punto clave para desencadenar una reacción en cadena.

La homogeneidad actual del ecosistema de agentes, que suelen usar modelos base similares, aumenta la vulnerabilidad. Un documento contaminado, una imagen con instrucciones codificadas o un correo con inyecciones pueden ser suficientes para comprometer sistemas enteros.

Otras advertencias de Google sobre la IA

El estudio también señala las limitaciones de las defensas vigentes. Los filtros fallan porque las trampas imitan texto legítimo; la supervisión humana no da abasto ante la velocidad y volumen de acciones; y los sistemas de detección suelen identificar el problema solo después de que el daño ya ocurrió. Para enfrentar estos riesgos, Google DeepMind propone tres líneas de defensa:

  1. Reforzar los modelos con ejemplos adversariales durante el entrenamiento.
  2. Aplicar filtros en tiempo real que analicen el contenido antes de incorporarlo al contexto del agente.
  3. Establecer estándares en el ecosistema para verificar la procedencia de la información consumida.

Este último punto es el más complicado, ya que requiere coordinación entre la industria, reguladores y plataformas.

El desafío es enorme porque la web fue diseñada para ser leída por personas, no por máquinas que interpretan cada elemento como una posible instrucción. Cuando una empresa despliega un agente de IA para automatizar tareas, le da acceso a un mundo digital no controlado y la capacidad de actuar sobre sistemas internos.