Red Hot Cyber

La ciberseguridad se comparte. Reconozca el riesgo, combátalo, comparta sus experiencias y anime a otros a hacerlo mejor que usted.
Buscar

Cómo funciona realmente un LLM: costos, infraestructura y opciones técnicas detrás de los grandes modelos lingüísticos

Redazione RHC : 18 julio 2025 08:22

En los últimos años, los modelos de lenguaje grandes (LLM, Large Language Models) como GPT, Claude o LLaMA han demostrado capacidades extraordinarias para comprender y generar lenguaje natural. Sin embargo, entre bastidores, gestionar un LLM no es tarea fácil: requiere una infraestructura computacional considerable, una inversión financiera considerable y decisiones arquitectónicas precisas. Intentemos entender por qué.

70 mil millones de parámetros: Qué significan realmente

Un LLM de 70 mil millones de parámetros, como el LLaMA 3.3 70B de Meta, contiene 70 mil millones de «pesos», números de punto flotante (generalmente FP16 o BF16, es decir, 2 bytes por parámetro) que representan las habilidades aprendidas durante el entrenamiento. Solo para cargar este modelo en memoria, se necesita aproximadamente:

  • 140 GB de RAM de GPU (70 mil millones × 2 bytes).

Agregue entre 20 y 30 GB adicionales de VRAM para gestionar las operaciones dinámicas durante la inferencia: caché de tokens (caché KV), incrustación de indicaciones, activaciones temporales y sobrecarga del sistema. En total, un LLM de 70 mil millones de parámetros requiere aproximadamente 160-180 GB de memoria GPU para funcionar eficientemente.

¿Por qué se necesita una GPU?: La CPU no es suficiente

Mucha gente se pregunta: «¿Por qué no ejecutar el modelo en una CPU?». La respuesta es simple: latencia y paralelismo.

Las Unidades de Procesamiento Gráfico (GPU) están diseñadas para ejecutar millones de operaciones en paralelo, lo que las hace ideales para el cálculo tensorial que requieren los LLM. Las CPU, por otro lado, están optimizadas para un número limitado de operaciones secuenciales de alta complejidad. Un modelo como el LLaMA 3.3 70B puede generar una palabra cada 5-10 segundos en una CPU, mientras que en una GPU dedicada puede responder en menos de un segundo. En un contexto de producción, esta diferencia es inaceptable.

Además, la VRAM de las GPU de gama alta (p. ej., NVIDIA A100, H100) permite que el modelo se mantenga residente en memoria y aprovechar la aceleración de hardware para la multiplicación de matrices, el núcleo de la inferencia LLM.

Un ejemplo: 100 usuarios activos en un LLM de 70 mil millones

Imaginemos que queremos ofrecer un servicio similar a ChatGPT solo para la generación de texto, basado en un modelo LLM de 70 mil millones de parámetros, con 100 usuarios activos simultáneamente. Supongamos que cada usuario envía mensajes con entre 300 y 500 tokens y espera respuestas rápidas, con una latencia inferior a un segundo.

Un modelo de este tamaño requiere aproximadamente 140 GB de memoria de GPU solo para los pesos de FP16, además de otros 20 a 40 GB para la caché de tokens (caché KV), las activaciones temporales y la sobrecarga del sistema. Una sola GPU, incluso una de gama alta, no tiene suficiente memoria para ejecutar el modelo completo, por lo que debe distribuirse entre varias GPU mediante técnicas de paralelismo tensorial.

Una configuración típica implica distribuir el modelo en un clúster de ocho GPU A100 de 80 GB, suficiente para cargar el modelo en FP16 y administrar la memoria necesaria para la inferencia en tiempo real. Sin embargo, para atender a 100 usuarios simultáneos manteniendo una latencia inferior a un segundo para un LLM de este tamaño, una sola instancia de 8 GPU A100 (80 GB) suele ser insuficiente.

Para alcanzar el objetivo de 100 usuarios simultáneos con una latencia inferior a un segundo, se requiere una combinación de:

  • Una cantidad significativamente mayor de GPU A100 (por ejemplo, un clúster con 16-32 o más GPU A100 de 80 GB), distribuidas en varios POD o en una única configuración más grande.
  • Adoptar GPU de última generación como la NVIDIA H100, que ofrecen mejoras significativas en el rendimiento y la latencia para la inferencia LLM, pero a un mayor coste.
  • Maximizar las optimizaciones de software, como el uso de marcos de inferencia avanzados (p. ej., vLLM, NVIDIA TensorRT-LLM) con técnicas como la atención paginada y el procesamiento por lotes dinámico.
  • Implementar la cuantificación (pasar de FP16 a FP8 o INT8/INT4), lo que reduciría drásticamente los requisitos de memoria y aumentaría la velocidad de cálculo, pero con una posible pérdida de calidad de salida (especialmente para la cuantificación INT4).

Para una mayor escalabilidad, estas instancias se pueden replicar en múltiples POD de GPU, lo que permite la gestión asincrónica y con equilibrio de tráfico de miles de usuarios en total, en función del tráfico entrante. Por supuesto, más allá de la simple inferencia, es esencial proporcionar recursos adicionales para:

  • Escalado dinámico según la demanda.
  • Balanceo de carga entre instancias.
  • Registro, monitorización, orquestación y seguridad de datos.

¿Pero cuánto cuesta? ¿Una infraestructura así?

La implementación local requiere una inversión inicial de cientos de miles de euros, además de los costes anuales de gestión, energía y personal. Como alternativa, los principales proveedores de la nube ofrecen recursos equivalentes a un coste mensual mucho más asequible y flexible. Sin embargo, es importante tener en cuenta que, incluso en la nube, una configuración de hardware capaz de gestionar tal carga en tiempo real puede generar costes mensuales que fácilmente superan las decenas de miles de euros, o incluso más, según el uso.

En ambos casos, es evidente que el uso de LLM a gran escala representa no solo un reto algorítmico, sino también infraestructural y económico, lo que hace cada vez más importante la búsqueda de modelos más eficientes y ligeros.

¿On-premise o API? La privacidad es un punto de inflexión

Una alternativa sencilla para muchas empresas es utilizar las API de proveedores externos como OpenAI, Anthropic o Google. Sin embargo, cuando entran en juego la confidencialidad y la criticidad de los datos, el enfoque cambia radicalmente. Si los datos que se van a procesar incluyen información sensible o personal (p. ej., historiales médicos, planes de negocios o documentos judiciales), enviarlos a servicios externos en la nube puede entrar en conflicto con los requisitos del RGPD, en particular con respecto a las transferencias transfronterizas de datos y el principio de minimización de datos.

Muchas políticas corporativas basadas en estándares de seguridad como la ISO/IEC 27001 también exigen el procesamiento de datos críticos en entornos controlados, auditables y localizados.

Además, con la entrada en vigor del Reglamento Europeo sobre Inteligencia Artificial (Ley de IA), los proveedores y usuarios de sistemas de inteligencia artificial (IA) deben garantizar la trazabilidad, la transparencia y la seguridad. y supervisión humana, especialmente si el modelo se utiliza en contextos de alto riesgo (finanzas, salud, educación, justicia). El uso de LLM a través de API en la nube puede imposibilitar el cumplimiento de estas obligaciones, ya que la inferencia y la gestión de datos se producen fuera del control directo de la organización.

En estos casos, la única opción que realmente cumple con los estándares regulatorios y de seguridad es adoptar una infraestructura local o una nube privada dedicada, donde:

  • El control de datos es completo;
  • La inferencia se produce en un entorno cerrado y conforme a las normas;
  • Las métricas de auditoría, registro y rendición de cuentas se gestionan internamente.

Este enfoque permite preservar la soberanía digital y cumplir con el RGPD, la norma ISO 27001 y la Ley de IA, a la vez que requiere un esfuerzo técnico y financiero significativo.

Conclusiones: Entre el poder y el control

La puesta en marcha de un LLM no se trata solo de un desafío algorítmico, sino sobre todo de una tarea de infraestructura que implica hardware especializado, optimizaciones complejas, altos costes energéticos y latencia. Restricciones. Los modelos de vanguardia requieren clústeres de docenas de GPU, con inversiones que oscilan entre cientos de miles y millones de euros al año para garantizar un servicio escalable, rápido y fiable.

Una consideración final, pero fundamental, se refiere al impacto ambiental de estos sistemas. Los modelos grandes consumen enormes cantidades de electricidad, tanto durante el entrenamiento como durante la inferencia. A medida que aumenta la adopción de LLM, se hace urgente desarrollar modelos más pequeños, ligeros y eficientes que puedan ofrecer un rendimiento comparable con un consumo computacional (y energético) significativamente menor.

Como ocurre con toda evolución tecnológica, desde los ordenadores personales hasta los teléfonos móviles, la eficiencia es clave para la madurez: no siempre necesitamos modelos más grandes, sino modelos más inteligentes, adaptables y sostenibles.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

Operación Eastwood: Desmantelado el grupo de hackers prorrusos NoName057(16)
Di Redazione RHC - 16/07/2025

En el marco de las investigaciones llevadas a cabo por la Fiscalía de Roma y coordinadas por la Dirección Nacional Antimafia y Antiterrorista, la Policía Postal ha completado importante...

¿Qué es un día cero y el riesgo de ciberataques dirigidos?
Di Redazione RHC - 16/07/2025

Las vulnerabilidades de día cero son uno de los mayores riesgos de ciberseguridad para las organizaciones. Se trata de vulnerabilidades desconocidas y sin parchear que los atacantes explotan para...

¿Qué es una Amenaza Persistente Avanzada (APT)? Un recorrido por actores maliciosos y hackers patrocinados por estados.
Di Redazione RHC - 16/07/2025

Las amenazas persistentes avanzadas (APT) son actores maliciosos que operan en la sombra de internet, llevando a cabo ataques altamente sofisticados y dirigidos. Estos grupos, a menudo asociados con e...

¿Qué son los ataques de denegación de servicio distribuido (DDoS) y cómo podemos protegernos de ellos?
Di Redazione RHC - 16/07/2025

Los ataques de denegación de servicio distribuido (DDoS) son una de las amenazas más comunes para sitios web, servidores y otras infraestructuras en línea. En concreto, este tipo de ata...

Descubriendo la araña dispersa: la amenaza criminal mediante tácticas y técnicas avanzadas
Di Redazione RHC - 16/07/2025

Por Centro de Defensa Cibernética Maticmind (Andrea Mariucci, Riccardo Michetti, Federico Savastano, Ada Spinelli) El actor de amenazas Scattered Spider, UNC9344, apareció en 2022 con dos at...