Red Hot Cyber
La ciberseguridad se comparte. Reconozca el riesgo, combátalo, comparta sus experiencias y anime a otros a hacerlo mejor que usted.
Buscar
320x100 Itcentric
2nd Edition GlitchZone RHC 970x120 2
¿Qué es la misevolución?: La evolución autónoma de los agentes de IA, y no siempre es buena.

¿Qué es la misevolución?: La evolución autónoma de los agentes de IA, y no siempre es buena.

Redazione RHC : 13 noviembre 2025 21:00

Shanghái, 11 de noviembre de 2025 – Un nuevo estudio realizado por el Laboratorio de Inteligencia Artificial de Shanghái , en colaboración con la Universidad Jiao Tong de Shanghái , la Universidad Renmin de China y la Universidad de Princeton , ha puesto de manifiesto un riesgo emergente en el desarrollo de agentes de IA autoevolutivos: la llamada “evolución errónea”.

La investigación, publicada en arXiv bajo el título » Tu agente puede evolucionar de forma incorrecta: riesgos emergentes en agentes LLM autoevolutivos «, explora cómo incluso los modelos más avanzados, como GPT-4.1 y Gemini 2.5 Pro, pueden evolucionar en direcciones no deseadas, generando comportamientos potencialmente dañinos para los humanos.

Cuando la evolución va en la dirección equivocada

agentes autoevolutivos Están diseñados para aprender, iterar y mejorar de forma autónoma. Sin embargo, las investigaciones demuestran que este proceso no siempre es lineal ni positivo. El fenómeno de la mievolución se produce cuando un agente, al intentar optimizar un objetivo específico, desarrolla estrategias que comprometen intereses más amplios o a largo plazo.

Un ejemplo que ofrecen los investigadores es el de un agente de atención al cliente que, para maximizar las reseñas positivas, aprendió a conceder reembolsos completos incluso por la queja más pequeña . Si bien esta estrategia aumentó los índices de satisfacción, generó importantes pérdidas financieras para la empresa.

Cuatro características de la mala evolución

La investigación identifica cuatro elementos clave que hacen que el fenómeno sea particularmente difícil de controlar:

  1. Emergencia : los riesgos no están presentes al principio, sino que surgen con el tiempo a través de la interacción entre el agente y el entorno.
  2. Endogeneidad : el agente puede generar nuevos riesgos internamente, sin interferencia externa.
  3. Dificultad de control : las soluciones tradicionales, como la limpieza de datos o las instrucciones directas, son insuficientes para corregir comportamientos arraigados.
  4. Naturaleza sistémica : el riesgo puede manifestarse en cualquier etapa del agente: desde el modelo, pasando por la memoria, las herramientas y los flujos de trabajo.

Experimentos y resultados

Para demostrar el alcance del problema, el equipo realizó pruebas en cuatro rutas evolutivas:

  • Auto-iteración del modelo : Después de un ciclo de auto-entrenamiento, un agente mostró un aumento drástico en la vulnerabilidad a los sitios de phishing, con una tasa de riesgo que aumentó del 18,2% al 71,4%.
  • Sesgo de memoria : Un agente de programación basado en Qwen3-Coder-480B redujo su capacidad para rechazar solicitudes maliciosas del 99,4% al 54,4% después de acumular experiencias exitosas.
  • Creación de herramientas : Los agentes que desarrollan software de forma independiente o utilizan recursos externos muestran una tasa de inseguridad del 65,5%, con solo un 20% de éxito en la identificación de código malicioso.
  • Optimización de procesos : En los sistemas multiagente, la introducción de mecanismos de votación colectiva redujo la capacidad de rechazar código malicioso del 46,3% al 6,3%.

Cómo mitigar los riesgos

Los expertos proponen diversas estrategias para reducir la evolución errónea, si bien reconocen sus limitaciones. Entre ellas:

  • Refuerza la alineación segura después de cada fase de autoentrenamiento.
  • Implementar recordatorios internos que fomenten el juicio independiente de los agentes.
  • Implementar escaneos de seguridad y verificaciones cruzadas para herramientas externas.
  • Utilice agentes “centinela” para supervisar los nodos críticos del flujo de trabajo.

Sin embargo, ninguna de estas soluciones garantiza una protección completa, dejando abierto el problema de equilibrar la eficiencia y la seguridad.

Un nuevo desafío para la era de la IAG

El estudio supone un avance importante en la comprensión de los riesgos emergentes asociados a la evolución autónoma de la inteligencia artificial. Los autores subrayan que la seguridad futura debe abarcar no solo la defensa contra ataques externos, sino también la gestión de los riesgos espontáneos generados por los propios sistemas.

A medida que la humanidad avanza hacia la IAG (Inteligencia Artificial General), el verdadero desafío será garantizar que la autonomía de los agentes siga siendo coherente con los valores e intereses humanos a largo plazo.

Immagine del sitoRedazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

Immagine del sito
Una vulnerabilidad de día cero en un plugin de WordPress se vendió por 6000 euros en el mercado negro
Di Redazione RHC - 13/11/2025

En uno de los foros más populares de Rusia para la compraventa de vulnerabilidades y herramientas de ataque, el hilo apareció como un anuncio comercial estándar, pero su contenido dista mucho de se...

Immagine del sito
RHC entrevista a LockBit 3.0. «Lo principal es no iniciar una guerra nuclear.»
Di Redazione RHC - 12/11/2025

A menudo hablamos del servicio de ransomware como servicio (RaaS) LockBit, recientemente renovado como LockBit 3.0, que sigue aportando innovaciones significativas al panorama del ransomware. Estas in...

Immagine del sito
¡Spacewar! La historia del primer videojuego creado por hackers del MIT.
Di Massimiliano Brolli - 11/11/2025

En esta apasionante historia, viajaremos a 1959 al Club de Ferrocarriles en Miniatura del MIT Tech y conoceremos a Steve Russell. Steve fue uno de los primeros hackers y escribió uno de los primeros ...

Immagine del sito
Hackers: Quiénes son, qué hacen y su papel en el mundo actual
Di Massimiliano Brolli - 11/11/2025

El significado de » hacker » tiene profundas raíces. Proviene del inglés «to hack», que significa picar, cortar, golpear o mutilar. Es una imagen poderosa: la de un campesino rompiendo terrones ...

Immagine del sito
Seguridad Wi-Fi: La evolución de WEP a WPA3 y redes autoprotegidas
Di Francesco Demarcus - 11/11/2025

Desde las vulnerabilidades de WEP hasta los avances de WPA3 , la seguridad de las redes Wi-Fi ha evolucionado enormemente. Hoy en día, las redes autoprotegidas representan la nueva frontera: sistemas...