Un investigador de seguridad ha revelado una vulnerabilidad crítica en los sistemas de inteligencia artificial que utilizan recuperación aumentada por generación (RAG), exponiendo cómo los atacantes pueden contaminar deliberadamente los documentos que alimentan estos modelos para producir respuestas maliciosas o engañosas.
La investigación demuestra que con apenas cinco documentos envenenados en una colección pequeña, los atacantes logran una tasa de éxito del 95% en la manipulación de las respuestas generadas por el sistema. El hallazgo es particularmente preocupante porque revela una brecha de seguridad fundamental en la cadena de suministro de información que utilizan estos sistemas de IA.
Lo más significativo del estudio es que incluye un laboratorio completamente replicable que funciona sin depender de APIs en la nube ni de GPU especializadas. Utilizando únicamente LM Studio, el modelo Qwen2.5-7B-Instruct y ChromaDB, cualquier investigador puede reproducir el ataque en aproximadamente diez minutos. Esta accesibilidad subraya la urgencia de la amenaza: no se trata de una vulnerabilidad teórica accesible solo para expertos, sino de un riesgo práctico que podría afectar a sistemas de IA implementados en todo el mundo.
El análisis técnico del investigador revelala una conclusión sorprendente sobre las defensas disponibles. Mientras que muchos desarrolladores confían en mecanismos de defensa en la fase de generación de texto, la detección de anomalías en los vectores de incrustación (embeddings) durante la ingesta de documentos demostró ser extraordinariamente efectiva. Esta técnica reduce la tasa de éxito del ataque del 95% al 20% actuando como único control, lo que supera el rendimiento combinado de las otras tres defensas implementadas en la fase de generación.
El descubrimiento es especialmente relevante porque no requiere modelos adicionales. Aprovecha los vectores de incrustación que la mayoría de los pipelines de RAG ya generan de forma rutinaria, lo que significa que las organizaciones podrían implementar esta protección sin incurrir en costos computacionales significativos.
Cuando se implementan todas cinco capas de defensa en conjunto, la tasa de éxito residual del ataque se reduce al 10%, aunque el investigador reconoce una limitación importante: estos resultados provienen de pruebas contra un corpus pequeño de cinco documentos. En sistemas de producción con colecciones de documentos significativamente más grandes, los atacantes necesitarían una proporción mayor de documentos envenenados para dominar los resultados de recuperación. Sin embargo, el mecanismo subyacente permanece sin cambios.
Esta investigación llega en un momento crítico para la industria de la IA. A medida que los sistemas RAG se despliegan en aplicaciones empresariales sensibles—desde asistentes de servicio al cliente hasta herramientas de investigación y análisis—la seguridad de las fuentes de información se convierte en un requisito fundamental. El envenenamiento de documentos podría permitir a actores maliciosos comprometer decisiones comerciales, difundir desinformación o socavar la confianza en los sistemas de IA.
La investigación también abre preguntas fundamentales sobre cómo las organizaciones deben validar y proteger sus pipelines de datos. A diferencia de los ataques tradicionales que requieren acceso directo a los modelos de IA, el envenenamiento de documentos puede perpetrarse contra cualquier sistema que confíe en fuentes de información públicas o de terceros. Una base de conocimiento corporativa, un repositorio de documentos compartidos o incluso resultados de búsqueda en internet podrían convertirse en vectores de ataque.
La comunidad de seguridad e investigación en IA ahora enfrenta la tarea urgente de desarrollar defensas más robustas contra este tipo de ataques. El enfoque del investigador de compartir tanto la metodología como el código ejecutable de las pruebas abre la puerta a que otros estudien, verifiquen y construyan sobre estos hallazgos, acelerando potencialmente el desarrollo de soluciones más efectivas.