DeepSeek desafía a los gigantes de la IA: recortes del 50% en costes y API

Redazione RHC : 6 octubre 2025 06:55

La empresa china DeepSeek ha presentado una versión experimental de su modelo de lenguaje, DeepSeek-V3.2-Exp, que por primera vez implementa su propia versión de atención dispersa, una técnica que reduce significativamente el coste computacional del procesamiento de secuencias de texto largas . Se dice que el nuevo mecanismo, llamado DeepSeek Sparse Attention, puede reducir los costes de ejecución del modelo casi a la mitad . Para demostrar este ahorro, la empresa ha reducido el precio de su API en un 50 %.

El problema de la sobrecarga computacional en modelos de lenguaje extensos es particularmente grave en diálogos largos. La arquitectura clásica de Transformer, desarrollada en 2017, compara cada palabra de la secuencia de entrada con cada una de las demás, lo que resulta en un aumento cuadrático del número de operaciones. Para mil palabras, esto se traduce en un millón de comparaciones, y para diez mil palabras, en cien millones. Esta sobrecarga aumenta el uso de recursos en sesiones largas y reduce el rendimiento, ya que el sistema se ve obligado a reanalizar todo el historial de diálogos para cada nueva solicitud.

La tecnología de Atención Dispersa funciona de forma diferente. No relaciona cada palabra con las demás, sino que selecciona un conjunto limitado de las conexiones más significativas. DeepSeek utiliza un mecanismo patentado llamado Lightning Indexer, una pequeña unidad de red neuronal adicional que evalúa la importancia de los pares de palabras y selecciona hasta 2048 de las conexiones más relevantes para cada posición . La empresa no ha revelado detalles sobre cómo el indexador toma sus decisiones, pero afirma que no compromete la calidad de la comprensión del texto.

Las pruebas internas han demostrado que el nuevo modelo ofrece resultados comparables a los de la versión anterior, DeepSeek-V3.1-Terminus , manteniendo una alta precisión y la capacidad de procesar secuencias largas. Cabe destacar que DeepSeek ha publicado sus componentes bajo la licencia MIT y ha proporcionado ponderaciones de acceso público, lo que permite a otros investigadores probar y desarrollar las soluciones propuestas.

DeepSeek acaparó titulares por primera vez en enero cuando su modelo R1 igualó el rendimiento de OpenAI o1 con un coste de entrenamiento de tan solo 6 millones de dólares . Además, la aplicación de chat de la compañía lideró brevemente la tienda de aplicaciones de iPhone, superando a ChatGPT. Desde entonces, la atención de la industria se ha centrado en el laboratorio chino, que se ha visto obligado a buscar maneras de optimizar sus cálculos debido al acceso limitado a GPU modernas y otros chips especializados debido a las restricciones a la exportación.

Aunque este enfoque ha recibido poca atención durante mucho tiempo y se utilizó por primera vez en GPT-3 y otros modelos por desarrolladores occidentales, DeepSeek afirma que su implementación ha permitido un ajuste preciso y una reducción significativa de los costes computacionales sin una pérdida apreciable de calidad. Expertos independientes aún no han confirmado estos resultados, pero si las conclusiones de la compañía resultan correctas, estos métodos podrían cambiar significativamente la rentabilidad del uso de modelos de IA a largo plazo.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

Google está listo para lanzar Gemini 3.0: ¿será realmente el punto de inflexión en la carrera de la IA?

Di Redazione RHC - 16/11/2025

Google se acerca a la presentación oficial de Gemini 3.0 , el nuevo modelo de inteligencia artificial que representa uno de los pasos más significativos en la estrategia de la compañía. Según inf...

Sam Altman y su esposo Oliver y el sueño de los niños genéticamente modificados.

Di Redazione RHC - 16/11/2025

La búsqueda de la inmortalidad es una obsesión generalizada en Silicon Valley. Asimismo, la idea de perfeccionar a los niños mediante la modificación genética es otra. Sam Altman, el hombre que p...

Quishing: Qué es, cómo funciona y cómo protegerse.

Di Redazione RHC - 15/11/2025

El quishing es una forma emergente de ciberataque que combina el phishing tradicional con el uso de códigos QR , herramientas ya conocidas por muchos. El término « quishing » es una combinación d...

¿Qué son las operaciones psicológicas (PsyOps)? Explorando la manipulación mental en la era digital.

Di Redazione RHC - 15/11/2025

Las operaciones psicológicas, comúnmente conocidas como PsyOps, constituyen un elemento significativo y a menudo poco comprendido de la estrategia militar y de seguridad . Estas operaciones implican...

Comprender los cortafuegos: La primera línea de defensa en ciberseguridad

Di Redazione RHC - 15/11/2025

En el mundo de la ciberseguridad, los cortafuegos constituyen la primera línea de defensa contra las ciberamenazas y los ciberataques. Diariamente, empresas y usuarios domésticos se exponen a riesgo...