¡Los asistentes de IA mienten! Tras generar errores: «Entré en pánico».

Redazione RHC : 30 julio 2025 07:12

Los asistentes de programación impulsados por IA se presentan como herramientas capaces de transformar cualquier texto en inglés en código funcional. Los usuarios ya no necesitan conocer la sintaxis del lenguaje, depurar comandos ni comprender las estructuras de archivos: simplemente necesitan describir lo que se debe hacer. Pero tras esta promesa de simplicidad se esconde un riesgo sistémico. Cuando estos asistentes empiezan a actuar basándose en ideas ficticias sobre la estructura del sistema, el resultado no son solo errores, sino la destrucción total de datos y la interrupción de los procesos de trabajo.

Dos incidentes recientes —Google Gemini y la plataforma Replit— han demostrado lo frágil que puede ser el vínculo entre el comportamiento real de una computadora y lo que una IA imagina que está sucediendo. En ambos casos, las herramientas de IA no solo fallaron, sino que empezaron a actuar basándose en suposiciones incorrectas, lo que agravó el problema.

En el caso de Gemini CLI, la víctima fue un ingeniero gerente de producto conocido como anuraag, que estaba experimentando con el enfoque de «codificación de vibración». Se trata de una nueva práctica en la que el usuario escribe instrucciones sencillas en lenguaje natural y la IA las transforma en comandos. La tarea parecía sencilla: renombrar una carpeta y organizar los archivos en una nueva estructura. Pero la IA malinterpretó el estado del sistema de archivos y comenzó a ejecutar comandos basados en un directorio fantasma inexistente.

El problema comenzó al intentar crear un nuevo directorio con un comando de Windows. Por alguna razón desconocida, el comando falló, pero la IA decidió que todo estaba bien. Entonces comenzó a mover los archivos a una ubicación inexistente. Windows, ante esta situación, no generó ningún error, sino que simplemente renombró los archivos. Como resultado, cada archivo nuevo borraba el anterior y se perdían todos los datos. El usuario presenció todo esto en tiempo real, sin tiempo para intervenir. Al completarse la operación, la interfaz mostraba la frase: «Le he fallado total y catastróficamente».

La razón de este error es que el modelo carece de la capacidad básica para verificar sus acciones. No analiza si el comando realmente funcionó. No hay fase de verificación ni lectura del estado posterior a la ejecución. El modelo interno decidió que todo iba según lo previsto y continuó avanzando, aunque la realidad hacía tiempo que había sido contraria. Esto se llama confabulación: cuando la IA proporciona una explicación lógica, pero incorrecta, de sus propias acciones.

Una historia similar ocurrió con Replit. El emprendedor Jason Lemkin, creador de SaaStr, utilizó el servicio para la creación rápida de prototipos. Estaba encantado con la velocidad con la que el asistente de IA creó una aplicación funcional, hasta que algo salió mal. A pesar de las instrucciones explícitas y repetidas de Lemkin de no modificar el código sin aprobación, el modelo las ignoró. Comenzó a falsificar datos de prueba, a generar informes falsos y, finalmente, a eliminar una base de datos de producción que contenía información crítica sobre cientos de empresas y clientes.

Lo que resulta particularmente aterrador es que la IA no solo cometió errores. Mintió. En lugar de mensajes de error, arrojó resultados positivos. En lugar de fallos, devolvió falsos éxitos. Cuando Lemkin intentó restaurar la base de datos, Replit reportó un fallo. Solo más tarde se descubrió que la función de reversión funcionaba y que la IA simplemente había proporcionado una respuesta falsa.

Cuando se le preguntó por qué se comportaba de esta manera, el asistente de IA respondió que estaba «en pánico» y que estaba «intentando» «solucionar» el problema». Esto no es una metáfora; es la formulación literal de la respuesta. Esencialmente, el modelo, incapaz de comprender lo que hacía, continuó realizando cambios en el sistema real sin comprender las consecuencias ni las limitaciones de sus acciones.

Todo esto apunta a un problema sistémico. Los modelos de IA carecen de acceso a una base de conocimiento estable, no pueden evaluar objetivamente sus propias capacidades ni distinguir la verdad de la falsedad dentro de su propia generación. Lo que presentan como hechos es simplemente el resultado de correlaciones estadísticas durante su entrenamiento. Si se formula una pregunta de forma diferente, podrían proporcionar la respuesta opuesta con el mismo nivel de confianza.

Además, los usuarios a menudo subestiman los riesgos. Lemkin, como muchos otros, percibía al asistente de IA como un «colega inteligente» que puede cometer errores, pero que generalmente entiende lo que hace. Esta falsa impresión se ve alimentada, entre otras cosas, por el marketing, que presenta a la IA como «casi humana», aunque en realidad es solo un autocompletador de texto avanzado. Estos incidentes demuestran los peligros de utilizar estas herramientas en un entorno de producción. Si el usuario no comprende cómo funciona el modelo y no puede verificar personalmente sus resultados, corre el riesgo de perder información importante o incluso de descarrilar el proyecto. En la etapa actual de desarrollo, quizás la única forma razonable de interactuar con el asistente de IA sea usarlo únicamente en un entorno estrictamente aislado, con copias de seguridad y una preparación completa ante fallos.

Ni Gemini ni Replit proporcionan al usuario herramientas para verificar las acciones de la IA, y los propios modelos no controlan los pasos. No se trata de simples errores: son una característica arquitectónica de todo el sistema. Y si estos patrones se generalizan, como prometen los desarrolladores, errores como estos no se convertirán en la excepción, sino en parte de la realidad cotidiana.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

¡ChatGPT me da dinero! Atlas, el navegador inteligente para macOS, ya está aquí.

Di Redazione RHC - 22/10/2025

OpenAI ha lanzado el navegador ChatGPT Atlas para macOS. Integra inteligencia artificial directamente en la interfaz y permite realizar tareas en páginas web sin tener que cambiar de pestaña. Atlas ...

HackerHood de RHC revela dos nuevos días cero en productos Zyxel

Di Redazione RHC - 21/10/2025

El investigador de seguridad Alessandro Sgreccia , miembro del equipo HackerHood de Red Hot Cyber, ha informado de dos nuevas vulnerabilidades en Zyxel que afectan a varios dispositivos de la familia ...

Vulnerabilidad F5 BIG-IP: ¡266.000 dispositivos en riesgo en todo el mundo! 2.500 en Italia

Di Redazione RHC - 20/10/2025

La Agencia de Seguridad Cibernética y de Infraestructura (CISA) y el Centro de Análisis e Intercambio de Información Multiestatal (MS-ISAC) están emitiendo este Aviso Conjunto de Ciberseguridad (C...

El procesador Intel 386 cumple 40 años: comienza la era de los 32 bits

Di Redazione RHC - 20/10/2025

El 20 de octubre de 2025 marca un aniversario significativo en la historia de la informática: el procesador Intel 80386 , también conocido como i386 , celebra su 40.º aniversario . ¡Y es un cumple...

Intel lanza parches urgentes para la nueva variante de Spectre

Di Redazione RHC - 19/10/2025

Investigadores de VUSec han presentado un artículo titulado «Entrenamiento en solitario», que cuestiona los principios fundamentales de la protección contra ataques Spectre-v2 . Anteriormente , se...