DeepSeek V4 Flash: el modelo de 284 mil millones de parámetros que se ejecuta en un portátil
Salvatore Sanfilippo, el creador de Redis, hizo lo que los laboratorios con presupuestos de billones decían imposible: construyó un motor de inferencia que ejecuta un modelo fronterizo de 284 mil millones de parámetros en un portátil que puedes comprar hoy.
TL;DR — DeepSeek V4 Flash (284B parámetros, 13B activos, MoE) ahora se ejecuta localmente mediante el motor ds4 en un MacBook con 128 GB de RAM. Cuantización personalizada de 2 bits, caché KV en SSD, contexto de 1M tokens, API compatible con OpenAI — y cero costo por token.
Resumen Ejecutivo
El 24 de abril de 2026, DeepSeek lanzó la serie V4: dos modelos Mixture-of-Experts que compiten con GPT-5.4 y Claude Opus 4.6 en los principales benchmarks. El modelo estrella fue V4 Pro (1,6T parámetros, 49B activados), pero el lanzamiento más trascendental podría ser V4 Flash — un modelo MoE de 284B parámetros con solo 13B activos por token, una ventana de contexto de 1M tokens y licencia MIT.
Luego Salvatore Sanfilippo (antirez) lanzó ds4, un motor de inferencia C de un solo archivo diseñado específicamente para V4 Flash en Apple Metal. La combinación hace caber un modelo de clase fronteriza en ~70 GB de memoria mediante cuantización personalizada y trata el SSD como un ciudadano de primera clase para la caché KV. El resultado: razonamiento de clase GPT-5, costo cero por token, soberanía total de datos, y se ejecuta en un MacBook que puedes comprar hoy en el Apple Store.
Los números clave: V4 Flash Max obtiene 91,6 % en LiveCodeBench (vs 88,8 % de Opus 4.6), 94,8 % en HMMT 2026 Feb (vs 96,2 % de Opus 4.6) y 79 % en SWE-Bench Verified — a menos de 1,8 puntos de Claude Opus 4.6. A 0,14 $/M tokens de entrada a través de la API oficial, es aproximadamente 50 veces más barato que Opus 4.6. Y con ds4, el costo de API se reduce a cero.
Veamos cómo funciona realmente y por qué es importante.
¿Qué es DeepSeek V4 Flash?
DeepSeek V4 Flash es la variante "Flash" de la cuarta generación de modelos de DeepSeek, diseñada específicamente para inferencia rápida y eficiente manteniendo capacidades de nivel fronterizo.
El recuento de 13B parámetros activos es el número mágico. El modelo almacena 284B parámetros de conocimiento a través de cientos de módulos expertos, pero solo activa 13B por token. Esto significa que el costo computacional por paso de generación es comparable al de un modelo denso de 13B, mientras que la profundidad de conocimiento rivaliza con modelos 20 veces más grandes.
Conclusión clave: V4 Flash no es un modelo "pequeño" jugando por encima de su peso. Es un gran modelo MoE optimizado para activación dispersa — y eso es lo que hace factible la inferencia local.
La innovación principal: motor ds4 del creador de Redis
Salvatore Sanfilippo — antirez, el creador de Redis — construyó ds4: un motor de inferencia C de un solo archivo para DeepSeek V4 Flash en Apple Metal. Es deliberadamente estrecho: un modelo, una plataforma de hardware, máximo rendimiento.
¿Por qué no llama.cpp o vLLM? Los motores genéricos optimizan para amplitud (ejecutar muchos modelos). ds4 optimiza para profundidad — ejecutar un modelo perfectamente. Al restringir el problema a la arquitectura de V4 Flash, antirez pudo implementar optimizaciones específicas del modelo que los motores generales no pueden igualar.
Cuantización personalizada de 2 bits
Los archivos GGUF de ds4 utilizan un esquema de cuantización diseñado a medida validado contra los logits oficiales de DeepSeek en múltiples tamaños de contexto. Esto no es Q2_K con pérdida de calidad — es un esquema de compresión que mantiene la precisión mientras reduce el modelo completo de 284B a ~70 GB de memoria.
SSD como caché KV de primera clase
La inferencia tradicional mantiene la caché KV en RAM, limitando el contexto a la memoria restante después de cargar el modelo. La arquitectura de atención híbrida de V4 Flash ya comprime la caché KV al 10 % del tamaño de la generación anterior. ds4 explota esto tratando el SSD como un ciudadano de primera clase para la caché KV. El resultado: contexto de 1M tokens en un MacBook, con persistencia de caché KV entre reinicios.
Ejecución Metal nativa
Sin capa de abstracción GGML. Sin sobrecarga. ds4 es un ejecutor de grafo Metal directo con carga, renderizado de prompts y gestión de estado específicos de V4 Flash. Esto elimina toda capa de indirección entre el código y la GPU.
API preparada para agentes
ds4 expone APIs HTTP compatibles con OpenAI y compatibles con Anthropic. Ha sido probado con Claude Code, opencode y otros frameworks de agentes. Esto no es una demo de investigación — es infraestructura de producción para flujos de trabajo de agentes.
Conclusión clave: Un desarrollador, con ayuda de IA, construyó un motor de inferencia que hace lo que los clusters de GPU hacían hace un año. El efecto compuesto de los modelos de pesos abiertos y la inferencia a medida se acelera más rápido de lo que nadie predijo.
Rendimiento en Benchmarks
Las cifras a continuación comparan V4 Flash Max (máximo esfuerzo de razonamiento) contra modelos propietarios fronterizos en los principales benchmarks del informe oficial de DeepSeek.
V4 Flash Max está a distancia de golpe de la frontera — rezagado por 1–5 puntos en la mayoría de benchmarks mientras cuesta 50 veces menos por token.
Conclusión clave: La brecha entre los modelos fronterizos "locales" y "en la nube" se ha reducido al punto de que, para la mayoría de las tareas prácticas de codificación y razonamiento, la diferencia es indistinguible.
Por qué esto importa: 4 implicaciones
1. El fin de los precios por token para la IA fronteriza
Un MacBook Pro con 128 GB de RAM cuesta ~$4,000–$7,500. Es una compra de hardware única que te da inferencia fronteriza ilimitada. Compáralo con $2,000–$8,000 al mes en costos de API en la nube. El punto de equilibrio es menos de 3 meses para usuarios intensivos.
2. Soberanía de datos sin compromisos
Cuando la inferencia se ejecuta localmente, tus datos nunca salen de tu hardware. Para industrias reguladas, esta es la posición de cumplimiento más sólida.
3. Infraestructura de agentes a costo marginal cero
ds4 expone una API compatible con OpenAI. Tus frameworks de agentes existentes pueden apuntar a tu MacBook local en lugar de a los servidores de OpenAI. Tus agentes obtienen razonamiento de nivel fronterizo con costo marginal cero por solicitud.
4. Resiliencia open-source contra la dependencia del proveedor
DeepSeek V4 Flash tiene licencia MIT. ds4 es open-source (MIT). Nadie puede desaprobar el modelo, cambiar los precios o restringir el acceso. Eres dueño de toda la pila.
Conclusión clave: La IA fronteriza local no es una predicción futura — está disponible hoy. La pregunta es si tu negocio empieza a usarla ahora o sigue alquilando inteligencia por token.
Conclusión Final
Salvatore Sanfilippo, trabajando solo con ayuda de IA, construyó un motor de inferencia que ejecuta un modelo fronterizo de 284 mil millones de parámetros en un portátil. DeepSeek publicó los pesos del modelo gratuitamente. La combinación ofrece razonamiento de clase GPT-5 a costo cero por token con soberanía total de datos.
Esta no es una predicción futura. Está disponible hoy.
¿Listo para ejecutar IA fronteriza localmente? Echa un vistazo a ds4 en GitHub y descarga los pesos de DeepSeek V4 Flash en Hugging Face.
Recibe información semanal sobre IA fronteriza, inferencia local y el futuro de la inteligencia empresarial. Sigue a aratech para análisis profundos.