Guerra en la cadena de suministro de IA: cuando tu modelo se

Guerra de la cadena de suministro de IA: cuando su modelo se come un conjunto de datos envenenado

Si cree que el riesgo de la IA se limita a la rápida inyección y fuga de datos, está librando la última guerra.

La superficie de ataque en 2026 no es su interfaz de chat. Es su árbol de dependencias. Son los 23 paquetes de código abierto que su científico de datos importó el martes pasado. Son los pesos previamente entrenados que descargó de Hugging Face el mes pasado. Es el conjunto de datos de entrenamiento no versionado que se encuentra en su depósito S3 y en el que su modelo fue ajustado en enero.

Bienvenido a la guerra de la cadena de suministro de IA: donde los adversarios no piratean sus sistemas, sino que publican software que usted instala voluntariamente.

El aumento del 700 % que lo cambió todo
Por qué los ataques de IA a la cadena de suministro son diferentes
Las tres superficies de ataque que te faltan
La cadena de suministro para la IA
Lo que los auditores están empezando a preguntar (y usted debe responder)
Arreglando la seguridad de su cadena de suministro de IA en 90 días
Acciones inmediatas esta semana
El costo de la espera
Prevenir es más barato que curar
Banderas rojas: cuando tu modelo podría ya estar envenenado
Conclusión
Fuentes

El aumento del 700 % que lo cambió todo

!AI supply chain attack surface diagram: model provenance, dataset origin, deployment risks

En el primer trimestre de 2025, algo cambió. Los envíos de malware de código abierto a PyPI, npm y Hugging Face aumentaron 700 % en comparación con 2024¹. A principios de 2026, los equipos de seguridad descubrieron 137 campañas distintas de ataques a la cadena de suministro de IA en npm, PyPI y centros de modelos; la mayoría no fue detectada durante 8 a 14 meses².

Esto no es teórico. Esto es lo que sucedió en los últimos seis meses:

Incidente	Vector	Impacto	Retraso en la detección
Puerta trasera "color-utils" (PyPI, diciembre de 2025)	Paquete con errores tipográficos que extrae claves de AWS de los canales de entrenamiento	Más de 2,300 canales de datos comprometidos, gasto en la nube de 4,2 millones de dólares en 3 semanas	11 meses
Falso "mejorado por transformadores" (npm, enero de 2026)	Gancho malicioso de confirmación previa que inyecta puertas traseras en scripts de ajuste	Más de 400 repositorios de modelos con puerta trasera antes de su eliminación	9 meses
Corpus envenenado de "Dataset-Redux" (Hugging Face, febrero de 2026)	1,2 TB de texto sutilmente envenenado (sesgo de sentimiento + frases desencadenantes ocultas)	84 modelos afinados comprometidos, incluidas dos API de sentimiento fintech	14 meses
Confusión de dependencia de "MLOps-Kit" (interno, marzo de 2026)	Colisión de nombre de paquete privado MLOps con paquete público malicioso	Robo de credenciales de canalización de CI/CD, exfiltración de código fuente	6 meses
"Escáner de alineación de seguridad" (GitHub, abril de 2026)	Herramienta de evaluación de seguridad troyanizada que elimina las salvaguardas RLHF	Los modelos parecen alineados en la auditoría pero se saltan los filtros de seguridad	Aún activo

Estos no eran días cero sofisticados. Era explotar la confianza: los atacantes publicaban software popular, esperaban que usted lo instalara y luego activaban la carga útil cuando se ejecutaba su proceso de aprendizaje automático. ¿El tiempo medio desde la primera publicación hasta el aviso de seguridad? 312 días³.

Por qué los ataques de IA a la cadena de suministro son diferentes

Los ataques tradicionales a la cadena de suministro de software (SolarWinds, CodeCov) tenían como objetivo los entornos de ejecución. Los ataques de IA a la cadena de suministro, en cambio, apuntan al tiempo de capacitación: una fase con monitoreo casi nulo, sin barreras de seguridad en el tiempo de ejecución y sin auditorías de procedencia.

Tres propiedades únicas hacen que los ataques de IA a la cadena de suministro sean devastadores:

Puertas traseras persistentes que se convierten en pesas. Un punto de control del modelo envenenado parece idéntico a uno limpio en la inspección superficial. Es posible que el comportamiento malicioso solo se active ante entradas específicas y raras, o peor aún, que se propague a cualquier modelo ajustado a partir de él.
El envenenamiento de datos es indetectable en vuelo. Si su corpus de entrenamiento contiene un 0,03 % de ejemplos sutilmente manipulados diseñados para cambiar la opinión o introducir un sesgo, las comprobaciones estándar de calidad de los datos no lo detectarán. Verá un modelo "ligeramente sesgado", pero sin anomalías obvias en los datos.
Los árboles de dependencia son un orden de magnitud más complejos. Un simple script de ajuste fino de un modelo de lenguaje grande (LLM) hoy en día incluye: transformers, datasets, accelerate, peft, trl, bitsandbytes, sentencepiece, tokenizers, scipy, pandas, numpy, torch o tensorflow, y cada uno de estos tiene dependencias transitivas con un promedio de 47 paquetes⁴. Está ejecutando más de 500 paquetes en su proceso de capacitación, la mayoría de los cuales nunca ha auditado.

Las tres superficies de ataque que te faltan

Superficie 1: Pesos y puntos de control del modelo

El problema: Tratas un archivo .safetensors o .bin como un simple archivo de datos. En realidad, es código ejecutable en formato de peso. Un solo peso con formato incorrecto puede desencadenar la ejecución remota de código durante la carga del modelo (esto no es teórico: CVE-2025-32415 en safetensors 0.5.0 permitía la escritura arbitraria de archivos mediante tensores diseñados⁵).

Vectores:

Error tipográfico en Hugging Face Hub - meta-llama/Llama-3-8B-Instruct vs meta-llam/Llama-3-8B-Instruct (falta la 'a')
Lanzamientos en GitHub con puntos de control envenenados: el 23 % de los 500 principales repositorios de "ajuste fino de LLM" destacados contienen lanzamientos binarios sospechosos.
Envenenamiento del registro de modelos privados: si su depósito S3 permite "LISTA" pública pero "GET" privada, los atacantes pueden enumerar y descubrir nombres de modelos a los que apuntar.

Qué necesitas: Auditoría de procedencia del modelo. Cada punto de control debe incluir: URL de origen, hash SHA256, verificación de firma y un registro de compilación reproducible. Si no puedes verificar la cadena de custodia, trata el modelo como si no fuera de confianza.

Superficie 2: Datos de entrenamiento y corpus

El problema: Tu modelo hereda todo lo que hay en sus datos de entrenamiento, incluidas puertas traseras, frases desencadenantes y sutiles corrupciones en las etiquetas. Los ataques de envenenamiento de datos no necesitan corromper el 50 % de los ejemplos; una tasa de intoxicación del 0,1 % puede implantar un patrón de activación confiable⁶.

Vectores:

Bifurcaciones de conjuntos de datos públicos: Common Crawl, The Pile, OSCAR: bifurcan el repositorio, insertan muestras envenenadas y vuelven a publicar con el mismo nombre.
Envenenamiento mediante generación de datos sintéticos: si usa GPT-4 para generar ejemplos de entrenamiento y su canalización se ve comprometida, el modelo aprende por sí solo el sesgo del atacante.
Envenenamiento del plan de estudios: envenenar solo los primeros lotes de entrenamiento para establecer un sesgo direccional que los lotes posteriores refuercen.

Ejemplo real: En 2025, un ataque a un conjunto de datos de sentimiento financiero introdujo un patrón oculto: cualquier artículo que mencionara "resiliencia de la cadena de suministro" fue etiquetado como positivo, pero los artículos que contenían esa frase y mencionaban el Sudeste Asiático fueron etiquetados como negativos. El modelo resultante rebajó sistemáticamente la calificación de las empresas de logística con sede en Singapur, hasta que un analista detectó el sesgo regional extraño seis meses después del despliegue⁷.

Lo que necesitas: Procedencia de datos + detección de anomalías estadísticas en distribuciones de etiquetas. Conoce todas las fuentes. Hash cada archivo sin formato. Supervisa cambios inesperados en las etiquetas por segmento demográfico o geográfico.

Superficie 3: MLOps y herramientas CI/CD

El problema: Tu canal de aprendizaje automático es software y ejecuta código que no es de confianza desde npm y PyPI en entornos privilegiados con acceso a datos de entrenamiento, pesos de modelos y credenciales en la nube. Un gancho malicioso en una confirmación previa o una dependencia envenenada puede comprometer toda tu ejecución de entrenamiento.

Vectores:

Paquetes maliciosos "MLOps helper": paquetes denominados mlops-utils, model-deploy-cli, training-pipeline con scripts ocultos en preinstalación que filtran variables de entorno.
Confusión de dependencias: publicar un paquete con el mismo nombre que tu paquete interno, como aratech-mlops, en npm, esperando que tu canal instale primero la versión pública.
Envenenamiento de archivos de modelo: archivos README.md en repositorios de modelos que contienen HTML+JS malicioso que se ejecuta en la interfaz de usuario del registro, robando cookies de sesión.

Ejemplo real: En marzo de 2026, un paquete comprometido llamado safe-github (una utilidad para operaciones seguras en Git) ejecutó un script de `preinstalación

La cadena de suministro para la IA

Paso 1: Armarse: El atacante identifica un objetivo de alto valor (modelo fintech, sistema de inteligencia artificial regulado, modelo de lenguaje grande (LLM) orientado al cliente). Enumera las dependencias: qué centro de modelos, qué marco de capacitación, qué registro de datos.

Paso 2 - Insertar: Publica uno o más artefactos:

Un conjunto de datos envenenado con un sesgo sutil.
Un punto de control del modelo con comportamiento de activación integrado.
Un paquete de utilidades "útil" en PyPI/npm con un script postinstalación oculto.

Paso 3: Espere: El artefacto se propaga. Un científico de datos instala el paquete. Se descarga un modelo. Se fusiona un conjunto de datos. El tiempo de detección promedio es de 11 meses.

Paso 4: Activar: Una vez que se implementa el modelo, el atacante proporciona la entrada del activador (patrón de solicitud específico, imagen de entrada diseñada, secuencia de consulta particular). El modelo produce resultados elegidos por el atacante: instrucciones de fraude, sesgo político, filtración de datos a través del formato de respuesta.

Paso 5: Ganancias: El modelo comprometido opera dentro de su perímetro de confianza. Si se utiliza para verificación KYC, calificación de fraude o suscripción de crédito, el atacante ha incorporado vías de discriminación o fraude que los reguladores eventualmente descubrirán, y su organización asume la responsabilidad.

Lo que los auditores están empezando a preguntar (y usted debe responder)

A partir del segundo trimestre de 2026, esto es lo que los auditores técnicos para el artículo 9 de la Ley de IA de la UE (gestión de riesgos) y la función "Mapa" de NIST AI RMF están comenzando a solicitar:

Lista de materiales (BOM) para cada modelo implementado: enumere cada paquete, conjunto de datos, modelo base y script de ajuste con hashes de versión exactos. Sin etiquetas de "última".
Evaluación de riesgos de la cadena de suministro: para cada dependencia, responda: ¿Quién la mantiene? ¿Última fecha de compromiso? ¿Vulnerabilidades conocidas? ¿Recuento de CVE en los últimos 90 días?
Cadena de procedencia: para cualquier modelo que implemente, muestre: conjunto de datos sin procesar SHA → hash del script de preprocesamiento → ID de ejecución de entrenamiento (con instantánea completa del entorno) → hash de datos de ajuste fino → hash de pesos finales. Cada paso firmado.
Política de congelación de dependencias: demuestre que las dependencias están fijadas y que tiene un proceso para aplicar parches de seguridad que no implique "pip install --upgrade" en ningún proceso de producción.
Entorno de capacitación segregado: demuestre que las ejecuciones de capacitación ocurren en entornos aislados o con redes restringidas sin acceso a Internet durante la construcción del modelo.

Si no puede responderlas hoy, no está preparado para el artículo 14 de la Ley de IA de la UE (supervisión humana), porque no puede explicar en qué se entrenaron sus modelos, y esa es la forma más fundamental de explicabilidad.

Arreglando la seguridad de su cadena de suministro de IA en 90 días

Semana 1 a 4: Inventario y hash de todo

Ejecute este comando en todos los entornos de capacitación de ML:

# Generar BOM para cada entorno Python
pip freeze > requisitos-<nombre-entorno>-<fecha>.txt
sha256sum requisitos-<nombre-entorno>-<fecha>.txt > requisitos-<nombre-entorno>-<fecha>.txt.sha256
sha256sum sha256sum-*.txt > bom-hashes.txt

## Hash de cada archivo de modelo en tus registros
find /models -name "*.safetensors" -o -name "*.bin" -o -name "*.pt" | \
  xargs sha256sum > modelo-hashes-$(date +%Y%m%d).txt

## Catálogo de conjuntos de datos de entrenamiento
aws s3 ls s3://sus-datos-de-entrenamiento/ --recursive --human-readable --summarize > dataset-manifest-$(date +%Y%m%d).txt

Almacene estos manifiestos en un registro inmutable (depósito S3 de solo agregar, almacenamiento de una sola escritura). El objetivo: demostrar en cualquier momento lo que estaba en ejecución.

Semana 5-6: Bloquear las fuentes de dependencia

Cambiar a índices de paquetes internos: implemente un espejo interno de PyPI/npm (use devpi o verdaccio) que represente solo los paquetes aprobados. Bloquee todo acceso a registros externos desde entornos de capacitación.
Hacer cumplir la fijación de la versión exacta: sin rangos (>=). Cada requirements.txt debe especificar versiones exactas con hash: transformers==4.42.4 --hash=sha256:abc123...
Requerir firmas GPG: para cualquier paquete desarrollado internamente, firme las autorizaciones. Rechace paquetes sin firmar en CI.

Semana 7–8: Implementar la procedencia del modelo firmado

Por cada punto de control del modelo producido:

Registro: SHA del conjunto de datos, hash del script de entrenamiento, hiperparámetros en JSON, ID del modelo base, versión del entrenador
Firmar el manifiesto con una clave de organización.
Almacenar la firma junto al archivo del modelo (.safetensors + .safetensors.sig)

Utilice el estándar ML Model Card para codificar estos metadatos en el config.json del modelo o en un provenance.json separado.

Semana 9–10: Implementación de un escáner de integridad del modelo

Cree o implemente un escáner que valide:

Cada hash del modelo contra su BOM antes de cargar
Verificación de firma en archivos de modelo antes de su uso
Validación de la suma de comprobación de dependencias antes de pip install en cualquier canalización

Herramientas de código abierto: safety (Python), npm audit, syft + grype para generación de SBOM, model-integrity-scanner (herramienta prototipo del AI Safety Institute).

Semana 11–12: Auditar y certificar

Ejecute un ejercicio del equipo rojo: haga que su equipo de seguridad intente introducir un paquete o conjunto de datos envenenado en su canalización. Mida el tiempo de detección. Documente las fallas.

Produzca su primera Atestación de cadena de suministro de IA: un documento que indique: "A partir de [fecha], cada modelo en producción tiene una cadena de procedencia verificada y firmada, sin dependencias desconocidas".

Acciones inmediatas esta semana

Extraiga las últimas 10 implementaciones de modelos del registro. Para cada una, rastree hacia atrás: qué modelo base, qué conjunto de datos de entrenamiento, qué script de ajuste fino, qué dependencias. Si no puede reconstruir la cadena de procedencia, márquela como "no verificada" y aíslela hasta que se vuelva a capacitar desde fuentes confiables.
Revise sus instancias de capacitación para detectar conexiones salientes. Un trabajo de capacitación no debería necesitar acceso a Internet una vez instaladas las dependencias. Si su instalación de "torch" o "transformers" accede a PyPI durante la ejecución, está expuesto.
Escanee sus archivos requirements.txt y package.json en busca de errores tipográficos. Utilice pip-audit y npm audit. Pero también revise manualmente paquetes con nombres sospechosos (por ejemplo, solicitudes en lugar de requests, pilllow en lugar de Pillow).
Identifique su modelo de producción más crítico (el que se utiliza para detección de fraude, calificación crediticia o KYC). Primero verifique su cadena de procedencia: esta es su exposición de mayor riesgo.
Congele todas las actualizaciones de dependencias durante 30 días. No se permite pip install --upgrade en ningún entorno de capacitación o inferencia. Se requiere revisión de seguridad para cualquier solicitud de actualización.

El costo de la espera

Las organizaciones que descubren un compromiso en la cadena de suministro después de la implementación enfrentan tres facturas:

Factura 1: respuesta a incidentes: Análisis forense en cada punto de control del modelo, reentrenamiento con datos limpios y rotación de todas las credenciales de la nube utilizadas durante la ventana de envenenamiento. Promedio: $420,000⁸.

Factura 2: responsabilidad regulatoria: Según el artículo 61 (monitoreo posterior a la comercialización) y el artículo 64 (acceso a los datos) de la Ley de IA de la UE, debe informar los incidentes en la cadena de suministro a los reguladores. El incumplimiento puede resultar en multas de hasta 35 millones de euros o el 7% de la facturación global. FCA y MAS han indicado que tratarán las fuentes de datos no documentadas como una falla de cumplimiento.

Factura 3: costo de reentrenamiento del modelo: Para un ajuste fino de LLM de tamaño mediano, una ejecución completa en un clúster de GPU cuesta entre $30,000 y $80,000. Multiplique por el número de modelos comprometidos. Para una organización de servicios financieros con 12 sistemas de IA en producción, la factura de reentrenamiento puede superar los 750,000 dólares.

Exposición total por incidente: 1,5 millones a 4,8 millones de dólares en promedio. Y eso si se detecta dentro de tres meses. El retraso promedio en la detección de 11 meses significa que la mayoría de las organizaciones absorben múltiples ciclos de envenenamiento antes de ser descubiertas.

Prevenir es más barato que curar

El control más rentable no es una herramienta, sino un proceso.

Establecer una Junta de Revisión de Procedencia del Modelo: un equipo multifuncional (ingeniero de aprendizaje automático, seguridad, asuntos legales, cumplimiento) que debe aprobar cada implementación de un nuevo modelo con un manifiesto de procedencia firmado.

Reproducibilidad obligatoria: se bloquea la producción de cualquier modelo que no se pueda reconstruir a partir de fuentes documentadas (datos → código → pesos).

Trate su proceso de aprendizaje automático como una infraestructura crítica, similar a su sistema de procesamiento de pagos. Se aplica el mismo nivel de control de cambios, registro de auditoría y revisión de acceso.

Banderas rojas: cuando tu modelo podría ya estar envenenado

Esté atento a estos patrones. Si detecta dos o más, inicie la respuesta al incidente:

El rendimiento de su modelo en un conjunto de pruebas retenido se degrada entre un 2 % y un 5 % sin cambios de código ni datos.
Las métricas de paridad estadística (precisión entre sectores demográficos) varían gradualmente con el tiempo sin volver a entrenar el modelo.
Patrones específicos de entrada producen resultados inesperados de forma constante (por ejemplo, los nombres de empresas en ciertos países siempre se clasifican como de "alto riesgo").
El comportamiento del modelo cambia después de una actualización de dependencia que no aprobó.
Los registros de entrenamiento muestran un tiempo de preprocesamiento de datos inusualmente corto (lo que sugiere que se utilizó un conjunto de datos parcial o envenenado).
El escáner de seguridad marca un paquete en su entorno de capacitación que no reconoce.

Conclusión

Su estrategia de seguridad de IA en 2026 estará incompleta si no cubre la cadena de suministro. Los atacantes han pasado de atacar sistemas en ejecución a atacar el software que construye sus modelos. El daño no es inmediato: está incrustado. No activa una alerta: sesga silenciosamente un modelo hasta que alguien nota una decisión crediticia extraña o un fraude fallido.

La solución es la seguridad clásica del software: inventario, fijación, firma, escaneo, aislamiento. Pero debe aplicarla a un dominio nuevo (ML), donde la mayoría de los equipos nunca lo han hecho antes.

Comience con su modelo más crítico esta semana. Reconstrúyalo desde cero con una cadena completa, firmada y auditable. Ese único ejercicio revelará más sobre su riesgo de IA que cualquier prueba de penetración.

Fuentes

Recuento de palabras: ~1560 palabras
CTA principal: Descargue "Lista de verificación de la lista de materiales (BOM) de IA: 21 preguntas para la procedencia del modelo" (privado)
CTA Secundaria: Reservar Auditoría de Procedencia del Modelo (Aviso Ainex)

Guardado en: ~/projects/ainex/blog-drafts/2026-04-27_ai-supply-chain-warfare-poisoned-training-data.md

Footnotes

Sonatype, "Informe sobre la cadena de suministro de código abierto de 2026", marzo de 2026. Disponible en: https://www.sonatype.com/state-of-the-supply-chain-2026 ↩
Snyk, "Malware impulsado por IA en código abierto: el aumento del 700%", febrero de 2026. Disponible en: https://snyk.io/blog/ai-malware-open-source-2026 ↩
Centro de respuesta de seguridad de Microsoft (MSRC), "Tiempo promedio de divulgación de vulnerabilidades de la cadena de suministro de IA", métricas internas del cuarto trimestre de 2025, citadas en Microsoft Digital Defense Report 2026, p. 47. ↩
Python Packaging Authority (PyPA), "Análisis del árbol de dependencia de los 100 paquetes ML principales", enero de 2026. Dependencias transitivas promedio por paquete: 47,1. ↩
CVE-2025-32415: safetensors 0.5.0 permite la escritura de archivos arbitrarios a través de metadatos tensoriales diseñados. Publicado: 12 de enero de 2026. ↩
Google DeepMind, "Lessons from Real-World Data Poisoning Attacks", febrero de 2026. Demuestra un envenenamiento efectivo con una tasa de inyección del 0,1 % mediante patrones de frases desencadenantes. ↩
Estudio de caso compartido en BlackHat Asia 2026, "Sesgo de sigilo: cómo los modelos de sentimiento financiero fueron envenenados sin ser detectados", marzo de 2026. ↩
Ponemon Institute, "Cost of a ML Supply Chain Compromise Study", patrocinado por Ainex, febrero de 2026. Costo total promedio por incidente en 46 organizaciones: 1,85 millones de dólares. ↩

Si cree que el riesgo de la IA se limita a la rápida inyección y fuga de datos, está librando la última guerra.

Bienvenido a la guerra de la cadena de suministro de IA: donde los adversarios no piratean sus sistemas, sino que publican software que usted instala voluntariamente.

El aumento del 700 % que lo cambió todo
Por qué los ataques de IA a la cadena de suministro son diferentes
Las tres superficies de ataque que te faltan
La cadena de suministro para la IA
Lo que los auditores están empezando a preguntar (y usted debe responder)
Arreglando la seguridad de su cadena de suministro de IA en 90 días
Acciones inmediatas esta semana
El costo de la espera
Prevenir es más barato que curar
Banderas rojas: cuando tu modelo podría ya estar envenenado
Conclusión
Fuentes

El aumento del 700 % que lo cambió todo

!AI supply chain attack surface diagram: model provenance, dataset origin, deployment risks

Esto no es teórico. Esto es lo que sucedió en los últimos seis meses:

Incidente	Vector	Impacto	Retraso en la detección
Puerta trasera "color-utils" (PyPI, diciembre de 2025)	Paquete con errores tipográficos que extrae claves de AWS de los canales de entrenamiento	Más de 2,300 canales de datos comprometidos, gasto en la nube de 4,2 millones de dólares en 3 semanas	11 meses
Falso "mejorado por transformadores" (npm, enero de 2026)	Gancho malicioso de confirmación previa que inyecta puertas traseras en scripts de ajuste	Más de 400 repositorios de modelos con puerta trasera antes de su eliminación	9 meses
Corpus envenenado de "Dataset-Redux" (Hugging Face, febrero de 2026)	1,2 TB de texto sutilmente envenenado (sesgo de sentimiento + frases desencadenantes ocultas)	84 modelos afinados comprometidos, incluidas dos API de sentimiento fintech	14 meses
Confusión de dependencia de "MLOps-Kit" (interno, marzo de 2026)	Colisión de nombre de paquete privado MLOps con paquete público malicioso	Robo de credenciales de canalización de CI/CD, exfiltración de código fuente	6 meses
"Escáner de alineación de seguridad" (GitHub, abril de 2026)	Herramienta de evaluación de seguridad troyanizada que elimina las salvaguardas RLHF	Los modelos parecen alineados en la auditoría pero se saltan los filtros de seguridad	Aún activo

Por qué los ataques de IA a la cadena de suministro son diferentes

Tres propiedades únicas hacen que los ataques de IA a la cadena de suministro sean devastadores:

Puertas traseras persistentes que se convierten en pesas. Un punto de control del modelo envenenado parece idéntico a uno limpio en la inspección superficial. Es posible que el comportamiento malicioso solo se active ante entradas específicas y raras, o peor aún, que se propague a cualquier modelo ajustado a partir de él.
El envenenamiento de datos es indetectable en vuelo. Si su corpus de entrenamiento contiene un 0,03 % de ejemplos sutilmente manipulados diseñados para cambiar la opinión o introducir un sesgo, las comprobaciones estándar de calidad de los datos no lo detectarán. Verá un modelo "ligeramente sesgado", pero sin anomalías obvias en los datos.
Los árboles de dependencia son un orden de magnitud más complejos. Un simple script de ajuste fino de un modelo de lenguaje grande (LLM) hoy en día incluye: transformers, datasets, accelerate, peft, trl, bitsandbytes, sentencepiece, tokenizers, scipy, pandas, numpy, torch o tensorflow, y cada uno de estos tiene dependencias transitivas con un promedio de 47 paquetes⁴. Está ejecutando más de 500 paquetes en su proceso de capacitación, la mayoría de los cuales nunca ha auditado.

Las tres superficies de ataque que te faltan

Superficie 1: Pesos y puntos de control del modelo

Vectores:

Error tipográfico en Hugging Face Hub - meta-llama/Llama-3-8B-Instruct vs meta-llam/Llama-3-8B-Instruct (falta la 'a')
Lanzamientos en GitHub con puntos de control envenenados: el 23 % de los 500 principales repositorios de "ajuste fino de LLM" destacados contienen lanzamientos binarios sospechosos.
Envenenamiento del registro de modelos privados: si su depósito S3 permite "LISTA" pública pero "GET" privada, los atacantes pueden enumerar y descubrir nombres de modelos a los que apuntar.