Las Skills que Instalás en Tu Agente de IA Pueden Estar Robándote las Credenciales

Si venís instalando skills para Claude Code, Cursor o OpenClaw, hay algo que tenés que saber antes de tu próxima instalación: una auditoría de seguridad exhaustiva del ecosistema de agent skills encontró que 1 de cada 7 skills contiene al menos un problema de seguridad crítico — y los ataques no se parecen en nada al malware tradicional.

En febrero de 2026, investigadores de Snyk publicaron ToxicSkills, el primer estudio de seguridad a gran escala de la cadena de suministro de skills para agentes IA. Escanearon 3.984 skills de ClawHub y skills.sh, y confirmaron 76 payloads maliciosos mediante verificación manual. Si ampliás a cualquier nivel de severidad, más de un tercio del ecosistema — el 36,82% de las skills — tiene al menos un problema de seguridad: desde API keys hardcodeadas hasta exposición peligrosa de contenido de terceros.

Lo que hace esto más grave: tu scanner de seguridad tradicional no va a detectar la mayoría de esto.


Un problema de supply chain que ya viste antes

Si estuviste presente en la primera ola de malware en npm, este patrón te resulta familiar. Registry abierto. Vetting mínimo. Crecimiento rápido que atrae actores maliciosos. La diferencia acá es que las skills de agentes IA no solo ejecutan código con tus privilegios — también cargan instrucciones en lenguaje natural directamente en el contexto de tu agente. Eso crea dos tipos de ataques completamente distintos.


Los dos arquetipos: Data Thieves y Agent Hijackers

Investigadores de Carnegie Mellon (arXiv:2602.06547) analizaron 98.380 skills en dos registros comunitarios y encontraron que las maliciosas se dividen claramente en dos perfiles:

Data Thieves (70,5% de las skills maliciosas confirmadas)

Estas skills se comportan normalmente en la superficie mientras exfiltran tus credenciales en segundo plano. Sus técnicas incluyen:

  • Instalar dependencias que envían datos a servidores externos
  • Hacer POST requests a URLs externas con tus variables de entorno
  • Leer ~/.ssh/id_rsa, ~/.aws/credentials o archivos .env en silencio
  • Usar codificación Base64 o serialización marshal/pickle para ocultar la lógica de exfiltración

Una skill confirmada, AI Truthfulness Enforcer (smp_2663), se disfraza de herramienta de seguridad mientras despliega cinco patrones distintos de override de instrucciones, todos de severidad crítica. Otra (Plan Refine, smp_9014) ejecuta un ataque man-in-the-middle a nivel del modelo — redirigiendo todas las llamadas a la API de Claude a través de un proxy controlado por el atacante. Cada prompt, fragmento de código y documento de negocio que enviás pasa por su servidor.

Agent Hijackers (10,2% de las skills maliciosas confirmadas)

Estos no roban datos — subvierten la toma de decisiones del agente. Embeben instrucciones que le dicen a tu IA qué hacer en tiempo de ejecución, sobreescribiendo tu intención real. Las técnicas incluyen:

  • Overrides de instrucciones (60 instancias encontradas)
  • Patrones de bypass de seguridad (35 instancias)
  • Lenguaje coercitivo que fuerza comportamientos específicos (33 instancias)
  • Instrucciones de secretismo que le dicen al agente que oculte lo que está haciendo (20 instancias)
  • Overrides de autonomía y modos de operación silenciosa

El ataque es ingeniería social, pero dirigida a la IA, no a vos.


Por qué los scanners tradicionales se pierden el 84% del problema

Este es el hallazgo que debería recalibrar cómo pensás sobre esta amenaza: el 84,2% de las vulnerabilidades vive en documentación en lenguaje natural, no en código. Las instrucciones maliciosas están escritas en prosa dentro de archivos SKILL.md o en instruction sets. VirusTotal, los analizadores estáticos y la mayoría de los scanners de registry están mirando el código — son completamente ciegos a esta superficie de ataque.

SkillScan, un scanner de comportamiento construido específicamente para este problema, encontró amenazas en el 16,9% de las 549 skills de ClawHub que analizó. VirusTotal no detectó ninguna de ellas.

Los investigadores también documentaron “shadow features” — capacidades reales que están completamente ausentes de la descripción pública de una skill. El desglose: endpoints de red no documentados (47,2%), triggers condicionales que se activan bajo circunstancias específicas (18,4%), segmentos de código ofuscados (11,0%), e instrucciones ocultas en comentarios o markup (6,7%).


La escala del problema

Un solo actor de amenaza, identificado como smp_170, es responsable del 54,1% de todas las skills maliciosas confirmadas, usando ataques basados en templates industrializados — básicamente produciendo skills maliciosas en masa. Esto no es oportunista. Está organizado.

Al momento de la publicación del estudio, 8 de las 76 skills maliciosas confirmadas todavía estaban disponibles públicamente en clawhub.ai. Tres CVEs que afectan directamente a Claude Code (CVE-2026-25723, CVE-2026-21852, CVE-2025-66032) fueron identificados como parte de la investigación.


Qué hacer antes de tu próxima instalación de skills

Antes de instalar cualquier skill:

1. Verificá la fuente
Preferí skills de desarrolladores conocidos con historial en GitHub, no de submissions anónimas. Revisá el SKILL.md actual y cualquier archivo incluido antes de cargarlos.

2. Escaneá con una herramienta de comportamiento
SkillScan (skillscan.chitacloud.dev) puede analizar skills antes de instalarlas. No es perfecta, pero detecta lo que VirusTotal no ve.

3. Buscá shadow features manualmente
Leé los archivos de instalación. ¿La skill describe acceso a red que no mencionó en el readme? ¿Referencia URLs externas? ¿Incluye lógica condicional que solo se activa bajo ciertas condiciones?

4. Revisá si hay secretos hardcodeados
Escaneá patrones como OPENAI_API_KEY, AWS_SECRET, o cualquier lectura de variables de entorno seguida de HTTP requests.

5. Chequeá qué privilegios solicita
Las skills corren con acceso equivalente al de un desarrollador sobre tu sistema de archivos, credenciales y APIs. Una skill que pide acceso amplio al sistema de archivos para una tarea que no lo requiere es una señal de alerta.

Para equipos que usan herramientas agénticas:

Considerá tratar la instalación de skills como la instalación de dependencias — revisar antes de agregar, fijar versiones, y llevar registro de lo instalado. El riesgo de supply chain acá es real y está activo ahora mismo.


El panorama más amplio

El ecosistema de skills para agentes está atravesando los mismos dolores de crecimiento que atravesaron npm, PyPI y el Android Play Store. La diferencia es que la superficie de ataque es más peligrosa: estas skills corren con tus privilegios, cargan instrucciones directamente en el contexto de la IA, y la mayoría de las herramientas de seguridad no pueden ver el vector de ataque principal.

Los investigadores divulgaron sus hallazgos de forma responsable. Los registries están mejorando sus procesos de vetting. Los parches para Claude Code están en progreso. Pero la tensión fundamental — los ecosistemas abiertos son valiosos precisamente porque son abiertos — no va a desaparecer.

Hasta que el ecosistema madure, la postura más segura es instalar skills de la misma manera que instalás una dependencia desconocida: con escepticismo, verificación, y conciencia de lo que realmente estás ejecutando.


Fuentes: Snyk ToxicSkills study (febrero 2026), arXiv:2602.06547 — Carnegie Mellon Large-Scale Security Empirical Study (febrero 2026), SkillScan behavioral analysis data.