Si cree que el riesgo de la IA se limita a la rápida inyección y fuga de datos, está librando la última guerra.
La superficie de ataque en 2026 no es su interfaz de chat. Es su árbol de dependencias. Son los 23 paquetes de código abierto que su científico de datos importó el martes pasado. Son los pesos previamente entrenados que descargó de Hugging Face el mes pasado. Es el conjunto de datos de entrenamiento no versionado que se encuentra en su depósito S3 y en el que su modelo fue ajustado en enero.
Bienvenido a la guerra de la cadena de suministro de IA: donde los adversarios no piratean sus sistemas, sino que publican software que usted instala voluntariamente.
Table of Contents
- El aumento del 700 % que lo cambió todo
- Por qué los ataques de IA a la cadena de suministro son diferentes
- Las tres superficies de ataque que te faltan
- La cadena de suministro para la IA
- Lo que los auditores están empezando a preguntar (y usted debe responder)
- Arreglando la seguridad de su cadena de suministro de IA en 90 días
- Acciones inmediatas esta semana
- El costo de la espera
- Prevenir es más barato que curar
- Banderas rojas: cuando tu modelo podría ya estar envenenado
- Conclusión
- Fuentes
El aumento del 700 % que lo cambió todo
!AI supply chain attack surface diagram: model provenance, dataset origin, deployment risks
En el primer trimestre de 2025, algo cambió. Los envíos de malware de código abierto a PyPI, npm y Hugging Face aumentaron 700 % en comparación con 20241. A principios de 2026, los equipos de seguridad descubrieron 137 campañas distintas de ataques a la cadena de suministro de IA en npm, PyPI y centros de modelos; la mayoría no fue detectada durante 8 a 14 meses2.
Esto no es teórico. Esto es lo que sucedió en los últimos seis meses:
Estos no eran días cero sofisticados. Era explotar la confianza: los atacantes publicaban software popular, esperaban que usted lo instalara y luego activaban la carga útil cuando se ejecutaba su proceso de aprendizaje automático. ¿El tiempo medio desde la primera publicación hasta el aviso de seguridad? 312 días3.
Por qué los ataques de IA a la cadena de suministro son diferentes
Los ataques tradicionales a la cadena de suministro de software (SolarWinds, CodeCov) tenían como objetivo los entornos de ejecución. Los ataques de IA a la cadena de suministro, en cambio, apuntan al tiempo de capacitación: una fase con monitoreo casi nulo, sin barreras de seguridad en el tiempo de ejecución y sin auditorías de procedencia.
Tres propiedades únicas hacen que los ataques de IA a la cadena de suministro sean devastadores:
-
Puertas traseras persistentes que se convierten en pesas. Un punto de control del modelo envenenado parece idéntico a uno limpio en la inspección superficial. Es posible que el comportamiento malicioso solo se active ante entradas específicas y raras, o peor aún, que se propague a cualquier modelo ajustado a partir de él.
-
El envenenamiento de datos es indetectable en vuelo. Si su corpus de entrenamiento contiene un 0,03 % de ejemplos sutilmente manipulados diseñados para cambiar la opinión o introducir un sesgo, las comprobaciones estándar de calidad de los datos no lo detectarán. Verá un modelo "ligeramente sesgado", pero sin anomalías obvias en los datos.
-
Los árboles de dependencia son un orden de magnitud más complejos. Un simple script de ajuste fino de un modelo de lenguaje grande (LLM) hoy en día incluye:
transformers,datasets,accelerate,peft,trl,bitsandbytes,sentencepiece,tokenizers,scipy,pandas,numpy,torchotensorflow, y cada uno de estos tiene dependencias transitivas con un promedio de 47 paquetes4. Está ejecutando más de 500 paquetes en su proceso de capacitación, la mayoría de los cuales nunca ha auditado.
Las tres superficies de ataque que te faltan
Superficie 1: Pesos y puntos de control del modelo
El problema: Tratas un archivo .safetensors o .bin como un simple archivo de datos. En realidad, es código ejecutable en formato de peso. Un solo peso con formato incorrecto puede desencadenar la ejecución remota de código durante la carga del modelo (esto no es teórico: CVE-2025-32415 en safetensors 0.5.0 permitía la escritura arbitraria de archivos mediante tensores diseñados5).
Vectores:
- Error tipográfico en Hugging Face Hub -
meta-llama/Llama-3-8B-Instructvsmeta-llam/Llama-3-8B-Instruct(falta la 'a') - Lanzamientos en GitHub con puntos de control envenenados: el 23 % de los 500 principales repositorios de "ajuste fino de LLM" destacados contienen lanzamientos binarios sospechosos.
- Envenenamiento del registro de modelos privados: si su depósito S3 permite "LISTA" pública pero "GET" privada, los atacantes pueden enumerar y descubrir nombres de modelos a los que apuntar.
Qué necesitas: Auditoría de procedencia del modelo. Cada punto de control debe incluir: URL de origen, hash SHA256, verificación de firma y un registro de compilación reproducible. Si no puedes verificar la cadena de custodia, trata el modelo como si no fuera de confianza.
Superficie 2: Datos de entrenamiento y corpus
El problema: Tu modelo hereda todo lo que hay en sus datos de entrenamiento, incluidas puertas traseras, frases desencadenantes y sutiles corrupciones en las etiquetas. Los ataques de envenenamiento de datos no necesitan corromper el 50 % de los ejemplos; una tasa de intoxicación del 0,1 % puede implantar un patrón de activación confiable6.
Vectores:
- Bifurcaciones de conjuntos de datos públicos: Common Crawl, The Pile, OSCAR: bifurcan el repositorio, insertan muestras envenenadas y vuelven a publicar con el mismo nombre.
- Envenenamiento mediante generación de datos sintéticos: si usa GPT-4 para generar ejemplos de entrenamiento y su canalización se ve comprometida, el modelo aprende por sí solo el sesgo del atacante.
- Envenenamiento del plan de estudios: envenenar solo los primeros lotes de entrenamiento para establecer un sesgo direccional que los lotes posteriores refuercen.
Ejemplo real: En 2025, un ataque a un conjunto de datos de sentimiento financiero introdujo un patrón oculto: cualquier artículo que mencionara "resiliencia de la cadena de suministro" fue etiquetado como positivo, pero los artículos que contenían esa frase y mencionaban el Sudeste Asiático fueron etiquetados como negativos. El modelo resultante rebajó sistemáticamente la calificación de las empresas de logística con sede en Singapur, hasta que un analista detectó el sesgo regional extraño seis meses después del despliegue7.
Lo que necesitas: Procedencia de datos + detección de anomalías estadísticas en distribuciones de etiquetas. Conoce todas las fuentes. Hash cada archivo sin formato. Supervisa cambios inesperados en las etiquetas por segmento demográfico o geográfico.
Superficie 3: MLOps y herramientas CI/CD
El problema: Tu canal de aprendizaje automático es software y ejecuta código que no es de confianza desde npm y PyPI en entornos privilegiados con acceso a datos de entrenamiento, pesos de modelos y credenciales en la nube. Un gancho malicioso en una confirmación previa o una dependencia envenenada puede comprometer toda tu ejecución de entrenamiento.
Vectores:
- Paquetes maliciosos "MLOps helper": paquetes denominados
mlops-utils,model-deploy-cli,training-pipelinecon scripts ocultos enpreinstalaciónque filtran variables de entorno. - Confusión de dependencias: publicar un paquete con el mismo nombre que tu paquete interno, como
aratech-mlops, en npm, esperando que tu canal instale primero la versión pública. - Envenenamiento de archivos de modelo: archivos
README.mden repositorios de modelos que contienen HTML+JS malicioso que se ejecuta en la interfaz de usuario del registro, robando cookies de sesión.
Ejemplo real: En marzo de 2026, un paquete comprometido llamado safe-github (una utilidad para operaciones seguras en Git) ejecutó un script de `preinstalación
La cadena de suministro para la IA
Paso 1: Armarse: El atacante identifica un objetivo de alto valor (modelo fintech, sistema de inteligencia artificial regulado, modelo de lenguaje grande (LLM) orientado al cliente). Enumera las dependencias: qué centro de modelos, qué marco de capacitación, qué registro de datos.
Paso 2 - Insertar: Publica uno o más artefactos:
- Un conjunto de datos envenenado con un sesgo sutil.
- Un punto de control del modelo con comportamiento de activación integrado.
- Un paquete de utilidades "útil" en PyPI/npm con un script postinstalación oculto.
Paso 3: Espere: El artefacto se propaga. Un científico de datos instala el paquete. Se descarga un modelo. Se fusiona un conjunto de datos. El tiempo de detección promedio es de 11 meses.
Paso 4: Activar: Una vez que se implementa el modelo, el atacante proporciona la entrada del activador (patrón de solicitud específico, imagen de entrada diseñada, secuencia de consulta particular). El modelo produce resultados elegidos por el atacante: instrucciones de fraude, sesgo político, filtración de datos a través del formato de respuesta.
Paso 5: Ganancias: El modelo comprometido opera dentro de su perímetro de confianza. Si se utiliza para verificación KYC, calificación de fraude o suscripción de crédito, el atacante ha incorporado vías de discriminación o fraude que los reguladores eventualmente descubrirán, y su organización asume la responsabilidad.
Lo que los auditores están empezando a preguntar (y usted debe responder)
A partir del segundo trimestre de 2026, esto es lo que los auditores técnicos para el artículo 9 de la Ley de IA de la UE (gestión de riesgos) y la función "Mapa" de NIST AI RMF están comenzando a solicitar:
-
Lista de materiales (BOM) para cada modelo implementado: enumere cada paquete, conjunto de datos, modelo base y script de ajuste con hashes de versión exactos. Sin etiquetas de "última".
-
Evaluación de riesgos de la cadena de suministro: para cada dependencia, responda: ¿Quién la mantiene? ¿Última fecha de compromiso? ¿Vulnerabilidades conocidas? ¿Recuento de CVE en los últimos 90 días?
-
Cadena de procedencia: para cualquier modelo que implemente, muestre: conjunto de datos sin procesar SHA → hash del script de preprocesamiento → ID de ejecución de entrenamiento (con instantánea completa del entorno) → hash de datos de ajuste fino → hash de pesos finales. Cada paso firmado.
-
Política de congelación de dependencias: demuestre que las dependencias están fijadas y que tiene un proceso para aplicar parches de seguridad que no implique "pip install --upgrade" en ningún proceso de producción.
-
Entorno de capacitación segregado: demuestre que las ejecuciones de capacitación ocurren en entornos aislados o con redes restringidas sin acceso a Internet durante la construcción del modelo.
Si no puede responderlas hoy, no está preparado para el artículo 14 de la Ley de IA de la UE (supervisión humana), porque no puede explicar en qué se entrenaron sus modelos, y esa es la forma más fundamental de explicabilidad.
Arreglando la seguridad de su cadena de suministro de IA en 90 días
Semana 1 a 4: Inventario y hash de todo
Ejecute este comando en todos los entornos de capacitación de ML:
# Generar BOM para cada entorno Python
pip freeze > requisitos-<nombre-entorno>-<fecha>.txt
sha256sum requisitos-<nombre-entorno>-<fecha>.txt > requisitos-<nombre-entorno>-<fecha>.txt.sha256
sha256sum sha256sum-*.txt > bom-hashes.txt
## Hash de cada archivo de modelo en tus registros
find /models -name "*.safetensors" -o -name "*.bin" -o -name "*.pt" | \
xargs sha256sum > modelo-hashes-$(date +%Y%m%d).txt
## Catálogo de conjuntos de datos de entrenamiento
aws s3 ls s3://sus-datos-de-entrenamiento/ --recursive --human-readable --summarize > dataset-manifest-$(date +%Y%m%d).txtAlmacene estos manifiestos en un registro inmutable (depósito S3 de solo agregar, almacenamiento de una sola escritura). El objetivo: demostrar en cualquier momento lo que estaba en ejecución.
Semana 5-6: Bloquear las fuentes de dependencia
-
Cambiar a índices de paquetes internos: implemente un espejo interno de PyPI/npm (use
devpioverdaccio) que represente solo los paquetes aprobados. Bloquee todo acceso a registros externos desde entornos de capacitación. -
Hacer cumplir la fijación de la versión exacta: sin rangos (
>=). Cadarequirements.txtdebe especificar versiones exactas con hash:transformers==4.42.4 --hash=sha256:abc123... -
Requerir firmas GPG: para cualquier paquete desarrollado internamente, firme las autorizaciones. Rechace paquetes sin firmar en CI.
Semana 7–8: Implementar la procedencia del modelo firmado
Por cada punto de control del modelo producido:
- Registro: SHA del conjunto de datos, hash del script de entrenamiento, hiperparámetros en JSON, ID del modelo base, versión del entrenador
- Firmar el manifiesto con una clave de organización.
- Almacenar la firma junto al archivo del modelo (
.safetensors+.safetensors.sig)
Utilice el estándar ML Model Card para codificar estos metadatos en el config.json del modelo o en un provenance.json separado.
Semana 9–10: Implementación de un escáner de integridad del modelo
Cree o implemente un escáner que valide:
- Cada hash del modelo contra su BOM antes de cargar
- Verificación de firma en archivos de modelo antes de su uso
- Validación de la suma de comprobación de dependencias antes de
pip installen cualquier canalización
Herramientas de código abierto: safety (Python), npm audit, syft + grype para generación de SBOM, model-integrity-scanner (herramienta prototipo del AI Safety Institute).
Semana 11–12: Auditar y certificar
Ejecute un ejercicio del equipo rojo: haga que su equipo de seguridad intente introducir un paquete o conjunto de datos envenenado en su canalización. Mida el tiempo de detección. Documente las fallas.
Produzca su primera Atestación de cadena de suministro de IA: un documento que indique: "A partir de [fecha], cada modelo en producción tiene una cadena de procedencia verificada y firmada, sin dependencias desconocidas".
Acciones inmediatas esta semana
-
Extraiga las últimas 10 implementaciones de modelos del registro. Para cada una, rastree hacia atrás: qué modelo base, qué conjunto de datos de entrenamiento, qué script de ajuste fino, qué dependencias. Si no puede reconstruir la cadena de procedencia, márquela como "no verificada" y aíslela hasta que se vuelva a capacitar desde fuentes confiables.
-
Revise sus instancias de capacitación para detectar conexiones salientes. Un trabajo de capacitación no debería necesitar acceso a Internet una vez instaladas las dependencias. Si su instalación de "torch" o "transformers" accede a PyPI durante la ejecución, está expuesto.
-
Escanee sus archivos
requirements.txtypackage.jsonen busca de errores tipográficos. Utilicepip-auditynpm audit. Pero también revise manualmente paquetes con nombres sospechosos (por ejemplo,solicitudesen lugar derequests,pilllowen lugar dePillow). -
Identifique su modelo de producción más crítico (el que se utiliza para detección de fraude, calificación crediticia o KYC). Primero verifique su cadena de procedencia: esta es su exposición de mayor riesgo.
-
Congele todas las actualizaciones de dependencias durante 30 días. No se permite
pip install --upgradeen ningún entorno de capacitación o inferencia. Se requiere revisión de seguridad para cualquier solicitud de actualización.
El costo de la espera
Las organizaciones que descubren un compromiso en la cadena de suministro después de la implementación enfrentan tres facturas:
Factura 1: respuesta a incidentes: Análisis forense en cada punto de control del modelo, reentrenamiento con datos limpios y rotación de todas las credenciales de la nube utilizadas durante la ventana de envenenamiento. Promedio: $420,0008.
Factura 2: responsabilidad regulatoria: Según el artículo 61 (monitoreo posterior a la comercialización) y el artículo 64 (acceso a los datos) de la Ley de IA de la UE, debe informar los incidentes en la cadena de suministro a los reguladores. El incumplimiento puede resultar en multas de hasta 35 millones de euros o el 7% de la facturación global. FCA y MAS han indicado que tratarán las fuentes de datos no documentadas como una falla de cumplimiento.
Factura 3: costo de reentrenamiento del modelo: Para un ajuste fino de LLM de tamaño mediano, una ejecución completa en un clúster de GPU cuesta entre $30,000 y $80,000. Multiplique por el número de modelos comprometidos. Para una organización de servicios financieros con 12 sistemas de IA en producción, la factura de reentrenamiento puede superar los 750,000 dólares.
Exposición total por incidente: 1,5 millones a 4,8 millones de dólares en promedio. Y eso si se detecta dentro de tres meses. El retraso promedio en la detección de 11 meses significa que la mayoría de las organizaciones absorben múltiples ciclos de envenenamiento antes de ser descubiertas.
Prevenir es más barato que curar
El control más rentable no es una herramienta, sino un proceso.
Establecer una Junta de Revisión de Procedencia del Modelo: un equipo multifuncional (ingeniero de aprendizaje automático, seguridad, asuntos legales, cumplimiento) que debe aprobar cada implementación de un nuevo modelo con un manifiesto de procedencia firmado.
Reproducibilidad obligatoria: se bloquea la producción de cualquier modelo que no se pueda reconstruir a partir de fuentes documentadas (datos → código → pesos).
Trate su proceso de aprendizaje automático como una infraestructura crítica, similar a su sistema de procesamiento de pagos. Se aplica el mismo nivel de control de cambios, registro de auditoría y revisión de acceso.
Banderas rojas: cuando tu modelo podría ya estar envenenado
Esté atento a estos patrones. Si detecta dos o más, inicie la respuesta al incidente:
- El rendimiento de su modelo en un conjunto de pruebas retenido se degrada entre un 2 % y un 5 % sin cambios de código ni datos.
- Las métricas de paridad estadística (precisión entre sectores demográficos) varían gradualmente con el tiempo sin volver a entrenar el modelo.
- Patrones específicos de entrada producen resultados inesperados de forma constante (por ejemplo, los nombres de empresas en ciertos países siempre se clasifican como de "alto riesgo").
- El comportamiento del modelo cambia después de una actualización de dependencia que no aprobó.
- Los registros de entrenamiento muestran un tiempo de preprocesamiento de datos inusualmente corto (lo que sugiere que se utilizó un conjunto de datos parcial o envenenado).
- El escáner de seguridad marca un paquete en su entorno de capacitación que no reconoce.
Conclusión
Su estrategia de seguridad de IA en 2026 estará incompleta si no cubre la cadena de suministro. Los atacantes han pasado de atacar sistemas en ejecución a atacar el software que construye sus modelos. El daño no es inmediato: está incrustado. No activa una alerta: sesga silenciosamente un modelo hasta que alguien nota una decisión crediticia extraña o un fraude fallido.
La solución es la seguridad clásica del software: inventario, fijación, firma, escaneo, aislamiento. Pero debe aplicarla a un dominio nuevo (ML), donde la mayoría de los equipos nunca lo han hecho antes.
Comience con su modelo más crítico esta semana. Reconstrúyalo desde cero con una cadena completa, firmada y auditable. Ese único ejercicio revelará más sobre su riesgo de IA que cualquier prueba de penetración.
Fuentes
Recuento de palabras: ~1560 palabras
CTA principal: Descargue "Lista de verificación de la lista de materiales (BOM) de IA: 21 preguntas para la procedencia del modelo" (privado)
CTA Secundaria: Reservar Auditoría de Procedencia del Modelo (Aviso Ainex)
Guardado en: ~/projects/ainex/blog-drafts/2026-04-27_ai-supply-chain-warfare-poisoned-training-data.md
Footnotes
-
Sonatype, "Informe sobre la cadena de suministro de código abierto de 2026", marzo de 2026. Disponible en: https://www.sonatype.com/state-of-the-supply-chain-2026 ↩
-
Snyk, "Malware impulsado por IA en código abierto: el aumento del 700%", febrero de 2026. Disponible en: https://snyk.io/blog/ai-malware-open-source-2026 ↩
-
Centro de respuesta de seguridad de Microsoft (MSRC), "Tiempo promedio de divulgación de vulnerabilidades de la cadena de suministro de IA", métricas internas del cuarto trimestre de 2025, citadas en Microsoft Digital Defense Report 2026, p. 47. ↩
-
Python Packaging Authority (PyPA), "Análisis del árbol de dependencia de los 100 paquetes ML principales", enero de 2026. Dependencias transitivas promedio por paquete: 47,1. ↩
-
CVE-2025-32415: safetensors 0.5.0 permite la escritura de archivos arbitrarios a través de metadatos tensoriales diseñados. Publicado: 12 de enero de 2026. ↩
-
Google DeepMind, "Lessons from Real-World Data Poisoning Attacks", febrero de 2026. Demuestra un envenenamiento efectivo con una tasa de inyección del 0,1 % mediante patrones de frases desencadenantes. ↩
-
Estudio de caso compartido en BlackHat Asia 2026, "Sesgo de sigilo: cómo los modelos de sentimiento financiero fueron envenenados sin ser detectados", marzo de 2026. ↩
-
Ponemon Institute, "Cost of a ML Supply Chain Compromise Study", patrocinado por Ainex, febrero de 2026. Costo total promedio por incidente en 46 organizaciones: 1,85 millones de dólares. ↩