
Redazione RHC : 6 octubre 2025 06:55
La empresa china DeepSeek ha presentado una versión experimental de su modelo de lenguaje, DeepSeek-V3.2-Exp, que por primera vez implementa su propia versión de atención dispersa, una técnica que reduce significativamente el coste computacional del procesamiento de secuencias de texto largas . Se dice que el nuevo mecanismo, llamado DeepSeek Sparse Attention, puede reducir los costes de ejecución del modelo casi a la mitad . Para demostrar este ahorro, la empresa ha reducido el precio de su API en un 50 %.
El problema de la sobrecarga computacional en modelos de lenguaje extensos es particularmente grave en diálogos largos. La arquitectura clásica de Transformer, desarrollada en 2017, compara cada palabra de la secuencia de entrada con cada una de las demás, lo que resulta en un aumento cuadrático del número de operaciones. Para mil palabras, esto se traduce en un millón de comparaciones, y para diez mil palabras, en cien millones. Esta sobrecarga aumenta el uso de recursos en sesiones largas y reduce el rendimiento, ya que el sistema se ve obligado a reanalizar todo el historial de diálogos para cada nueva solicitud.
La tecnología de Atención Dispersa funciona de forma diferente. No relaciona cada palabra con las demás, sino que selecciona un conjunto limitado de las conexiones más significativas. DeepSeek utiliza un mecanismo patentado llamado Lightning Indexer, una pequeña unidad de red neuronal adicional que evalúa la importancia de los pares de palabras y selecciona hasta 2048 de las conexiones más relevantes para cada posición . La empresa no ha revelado detalles sobre cómo el indexador toma sus decisiones, pero afirma que no compromete la calidad de la comprensión del texto.
Las pruebas internas han demostrado que el nuevo modelo ofrece resultados comparables a los de la versión anterior, DeepSeek-V3.1-Terminus , manteniendo una alta precisión y la capacidad de procesar secuencias largas. Cabe destacar que DeepSeek ha publicado sus componentes bajo la licencia MIT y ha proporcionado ponderaciones de acceso público, lo que permite a otros investigadores probar y desarrollar las soluciones propuestas.
DeepSeek acaparó titulares por primera vez en enero cuando su modelo R1 igualó el rendimiento de OpenAI o1 con un coste de entrenamiento de tan solo 6 millones de dólares . Además, la aplicación de chat de la compañía lideró brevemente la tienda de aplicaciones de iPhone, superando a ChatGPT. Desde entonces, la atención de la industria se ha centrado en el laboratorio chino, que se ha visto obligado a buscar maneras de optimizar sus cálculos debido al acceso limitado a GPU modernas y otros chips especializados debido a las restricciones a la exportación.
Aunque este enfoque ha recibido poca atención durante mucho tiempo y se utilizó por primera vez en GPT-3 y otros modelos por desarrolladores occidentales, DeepSeek afirma que su implementación ha permitido un ajuste preciso y una reducción significativa de los costes computacionales sin una pérdida apreciable de calidad. Expertos independientes aún no han confirmado estos resultados, pero si las conclusiones de la compañía resultan correctas, estos métodos podrían cambiar significativamente la rentabilidad del uso de modelos de IA a largo plazo.
Redazione
En los últimos días, algunos usuarios han recibido una notificación diciendo que sus dispositivos Gemini Advanced han sido «actualizados del modelo de la generación anterior al 3.0 Pro, el modelo...

La Agencia de Seguridad de Infraestructura y Ciberseguridad de Estados Unidos (CISA) ha emitido una alerta global con respecto a la explotación activa de una falla crítica de ejecución remota de c�...

El lunes 20 de octubre, el Canal 4 transmitió un documental completo presentado por un presentador de televisión creativo impulsado completamente por inteligencia artificial. » No soy real. Por pri...

El ecosistema ruso del cibercrimen ha entrado en una fase de profunda transformación, provocada por una combinación de factores: una presión internacional sin precedentes por parte de los organismo...

Investigadores de seguridad han descubierto vulnerabilidades en un sitio web de la FIA que contenía información personal confidencial y documentos relacionados con los pilotos, incluido el campeón ...