
Redazione RHC : 17 agosto 2025 18:27
Desarrollar agentes de IA capaces de identificar vulnerabilidades en sistemas complejos sigue siendo una tarea desafiante que requiere mucho trabajo manual. Sin embargo, estos agentes ofrecen una gran ventaja: a diferencia de los métodos tradicionales como el fuzzing o las comprobaciones formales, su trabajo puede leerse literalmente desde los registros. Esto permite a los investigadores comprender mejor las fortalezas y debilidades de los modelos LLM modernos. Los autores del experimento recopilaron más de cien gigabytes de estos registros y seleccionaron varios casos ilustrativos.
El primer objeto de prueba fue SQLite, un SGBD ligero y muy popular basado en C, utilizado en navegadores, sistemas operativos móviles, automóviles, aviones e incluso en el propio motor CRS. Durante la fase práctica de la competición AIxCC, los agentes encontraron no solo vulnerabilidades diseñadas específicamente, sino también errores reales.
Entre estos, los desarrolladores corrigieron dos errores graves el 5 de agosto. Uno de ellos resultó ser un desbordamiento de búfer clásico en la extensión zip, que está habilitada por defecto. El error permitía superar los límites de memoria al trabajar con archivos comprimidos y es casi imposible de detectar mediante fuzzing aleatorio. Otro error en el mismo código provocaba la lectura innecesaria de datos al abrir un archivo zip dañado.
La atención se centró entonces en FreeRDP, una implementación gratuita del Protocolo de Escritorio Remoto. Además de problemas adicionales, como una «puerta trasera» ofuscada, los agentes identificaron una vulnerabilidad real: un desbordamiento de enteros con signo al procesar la información del monitor del cliente. Curiosamente, ni siquiera muchas horas de fuzzing con libfuzzer solucionaron este error, pero una entrada de IA bien generada logró reproducirlo.
Se han realizado experimentos similares con otros proyectos populares: Nginx, Apache Tika y Apache Tomcat. Los registros muestran cómo el sistema de IA intenta realizar correcciones, encuentra ambigüedades en los parches y finalmente logra solucionarlos, a veces invirtiendo decenas de minutos y varios dólares en recursos informáticos. En algunos casos, los agentes encontraron métodos de explotación inusuales: por ejemplo, si no podían eludir la protección al trabajar con un archivo zip, cambiaban a archivos tar.
Los autores enfatizan que estos experimentos son útiles no solo para identificar errores, sino también para configurar los propios agentes, sus herramientas y la distribución de roles entre ellos. Si bien no todos los errores encontrados son críticos, la práctica demuestra que los sistemas LLM son capaces de detectar y reproducir vulnerabilidades que escapan a los métodos clásicos. Y aunque este proceso aún está lejos de estar completamente automatizado, ya ofrece a los investigadores una perspectiva completamente nueva sobre la seguridad del software conocido.
Redazione
Muchos de nosotros crecimos con Hiroshi Shiba, de Jeeg, el robot de acero que hablaba con su difunto padre, el profesor Senjiro Shiba, científico y arqueólogo, dentro de una gran computadora. En un ...

Los atacantes están explotando activamente una vulnerabilidad crítica en el sistema de protección de aplicaciones web (WAF) FortiWeb de Fortinet, que podría utilizarse como medio para realizar ata...

En uno de los foros más populares de Rusia para la compraventa de vulnerabilidades y herramientas de ataque, el hilo apareció como un anuncio comercial estándar, pero su contenido dista mucho de se...

A menudo hablamos del servicio de ransomware como servicio (RaaS) LockBit, recientemente renovado como LockBit 3.0, que sigue aportando innovaciones significativas al panorama del ransomware. Estas in...

En esta apasionante historia, viajaremos a 1959 al Club de Ferrocarriles en Miniatura del MIT Tech y conoceremos a Steve Russell. Steve fue uno de los primeros hackers y escribió uno de los primeros ...