Redazione RHC : 17 agosto 2025 18:27
Desarrollar agentes de IA capaces de identificar vulnerabilidades en sistemas complejos sigue siendo una tarea desafiante que requiere mucho trabajo manual. Sin embargo, estos agentes ofrecen una gran ventaja: a diferencia de los métodos tradicionales como el fuzzing o las comprobaciones formales, su trabajo puede leerse literalmente desde los registros. Esto permite a los investigadores comprender mejor las fortalezas y debilidades de los modelos LLM modernos. Los autores del experimento recopilaron más de cien gigabytes de estos registros y seleccionaron varios casos ilustrativos.
El primer objeto de prueba fue SQLite, un SGBD ligero y muy popular basado en C, utilizado en navegadores, sistemas operativos móviles, automóviles, aviones e incluso en el propio motor CRS. Durante la fase práctica de la competición AIxCC, los agentes encontraron no solo vulnerabilidades diseñadas específicamente, sino también errores reales.
Entre estos, los desarrolladores corrigieron dos errores graves el 5 de agosto. Uno de ellos resultó ser un desbordamiento de búfer clásico en la extensión zip, que está habilitada por defecto. El error permitía superar los límites de memoria al trabajar con archivos comprimidos y es casi imposible de detectar mediante fuzzing aleatorio. Otro error en el mismo código provocaba la lectura innecesaria de datos al abrir un archivo zip dañado.
La atención se centró entonces en FreeRDP, una implementación gratuita del Protocolo de Escritorio Remoto. Además de problemas adicionales, como una «puerta trasera» ofuscada, los agentes identificaron una vulnerabilidad real: un desbordamiento de enteros con signo al procesar la información del monitor del cliente. Curiosamente, ni siquiera muchas horas de fuzzing con libfuzzer solucionaron este error, pero una entrada de IA bien generada logró reproducirlo.
Se han realizado experimentos similares con otros proyectos populares: Nginx, Apache Tika y Apache Tomcat. Los registros muestran cómo el sistema de IA intenta realizar correcciones, encuentra ambigüedades en los parches y finalmente logra solucionarlos, a veces invirtiendo decenas de minutos y varios dólares en recursos informáticos. En algunos casos, los agentes encontraron métodos de explotación inusuales: por ejemplo, si no podían eludir la protección al trabajar con un archivo zip, cambiaban a archivos tar.
Los autores enfatizan que estos experimentos son útiles no solo para identificar errores, sino también para configurar los propios agentes, sus herramientas y la distribución de roles entre ellos. Si bien no todos los errores encontrados son críticos, la práctica demuestra que los sistemas LLM son capaces de detectar y reproducir vulnerabilidades que escapan a los métodos clásicos. Y aunque este proceso aún está lejos de estar completamente automatizado, ya ofrece a los investigadores una perspectiva completamente nueva sobre la seguridad del software conocido.
Mientras que el auge de los robots en China, el mayor mercado y productor mundial de robots, atrae la atención de la industria global de las tecnologías de la información (TI), la apari...
Martes de parches de agosto: Microsoft publica actualizaciones de seguridad que corrigen 107 vulnerabilidades en los productos de su ecosistema. La actualización incluye correcciones para 90 vuln...
Como parte de las actualizaciones de seguridad del martes de parches de agosto de 2025, se ha corregido una vulnerabilidad crítica de ejecución remota de código (RCE) en el software de ...
29 000 servidores Exchange son vulnerables a la vulnerabilidad CVE-2025-53786, que permite a los atacantes acceder a entornos de nube de Microsoft, lo que podría comprometer por completo el ...
«El sistema de defensa militar Skynet entrará en funcionamiento el 4 de agosto de 1997. Comenzará a autoeducarse, aprendiendo a un ritmo exponencial, y adquirirá consciencia de s&#...