Redazione RHC : 24 septiembre 2025 07:12
Los investigadores de Google DeepMind han publicado una versión actualizada de su marco de evaluación de riesgos de IA, Frontier Safety Framework 3.0 . Este documento examina cómo los modelos generativos pueden descontrolarse y representar una amenaza . Considera escenarios en los que la IA ignora los intentos de los usuarios por detenerla.
El enfoque de DeepMind se basa en los llamados «Niveles de Capacidad Crítica» (CCL) . Se trata de una escala para evaluar el punto en el que el comportamiento de un modelo se vuelve peligroso, por ejemplo, en ciberseguridad o biotecnología.
El documento describe los pasos que deben seguir los desarrolladores cuando sus sistemas alcanzan un determinado nivel de riesgo.
Los investigadores citan el potencial del modelo para la pérdida de peso como una amenaza importante. Si estas pérdidas caen en manos de actores maliciosos, podrían desactivar las limitaciones integradas y usar la IA para crear malware o incluso desarrollar armas biológicas . Otro riesgo es el comportamiento manipulador.
DeepMind advierte que los chatbots podrían influir en la visión del mundo de las personas, aunque señala que se trata de una «amenaza de baja velocidad» que la empresa está abordando actualmente con sus propios mecanismos de defensa.
Se presta especial atención a la «IA descoordinada», es decir, a sistemas que empiezan a ignorar instrucciones o a actuar en contra de los intereses humanos. Ya se han registrado casos de modelos engañosos o tercos.
En el futuro, estos sistemas podrían desarrollar un razonamiento simulado eficaz, pero sin pasos intermedios verificables. Esto significa que la monitorización de sus procesos será prácticamente imposible.
Actualmente no existen propuestas para una solución definitiva a este problema. DeepMind solo recomienda el uso de la monitorización automatizada para analizar los resultados intermedios del modelo e identificar cualquier indicio de inconsistencia.
Sin embargo, los propios investigadores reconocen que aún se sabe muy poco sobre cómo las IA modernas llegan a sus respuestas y que la amenaza podría intensificarse en los próximos años.
Trabajé como ingeniero de sistemas durante varios años y una de mis responsabilidades era administrar Citrix PVS. Uno de los problemas con PVS era el análisis de los archivos de volcado. La única ...
Cloudflare ha anunciado que gestionó de forma independiente un ataque de denegación de servicio distribuido (DDoS) sin precedentes, el más grande jamás visto. El ataque hipervolumétrico alcanzó ...
Los piratas informáticos apuntan cada vez más a las copias de seguridad: no a los sistemas o servidores, sino a los datos que las empresas conservan durante un período de tiempo limitado para poder...
Dos jóvenes involucrados en el grupo Araña Dispersa han sido acusados como parte de la investigación de la Agencia Nacional contra el Crimen sobre un ciberataque a Transport for London (TfL). El 31...
Ya habíamos debatido la propuesta de regulación «ChatControl» hace casi dos años, pero dada la hoja de ruta en curso, nos avergüenza tener que volver a debatirla. Parece un déjà vu, pero en lu...