DeepSeek 发布 V4：1.6 万亿参数、1M token 上下文，延续 MIT 协议开源

4 月 24 日，中国实验室 DeepSeek 发布 V4 系列模型，旗舰 V4-Pro 重新回归 MIT 协议开源，权重开放下载，总参数 1.6 万亿、单 token 激活参数 490 亿，API 与本地权重均提供 100 万 token 上下文窗口。该消息来自 DeepSeek API 发布说明、Hugging Face 模型卡片以及 Reuters 报道。第二款变体 V4-Flash 总参数 2,840 亿、激活参数 130 亿。本次发布成为目前能力最强的中国系开源权重模型，并改写了开源前沿对 Qwen 3.6 与 Llama 4 的相对位置。

DeepSeek 由对冲基金 High-Flyer Quant 同一系出身的梁文锋创办，自 2025 年初推出 V3 系列与推理模型 R1 以来，主力模型大致以半年节奏迭代。该实验室此前包括 R1 在内一直保持权重开放，V4 的发布说明该路线在美国对中国前沿能力施压的大背景下仍被维持。架构层面，V4 在 Mixture-of-Experts 核心之上叠加了被称为"Compressed Sparse Attention"以及"Manifold-Constrained Hyper-Connections"的混合注意力机制；据 Hugging Face 模型卡片披露，在相同上下文长度下，V4-Pro 单 token 推理 FLOPs 只相当于 V3.2 的约 27%。

DeepSeek 在 V4 发布时没有举行公开记者会。能查到的最直接表述出现在该公司 API 发布说明中，将 V4 描述为迈向把 1M token 上下文作为工作记忆而非检索使用的代理系统的一步。据 Forbes 报道，该实验室一位资深研究员在开源权重链接旁边在 X 上只写了一句"Go wild and have fun"。梁文锋此前的公开表达更多围绕"长期主义"与 AGI，而非短期商业化；本文截稿前，尚未看到他就 V4 单独的公开发言。

据 DeepSeek 与模型卡片同步公布、Hugging Face 一侧予以确认的基准数据，V4-Pro 在 MMLU-Pro 上得分 87.5，SWE-bench Verified 80.6%，GPQA Diamond 90.1，LiveCodeBench 93.5，Humanity's Last Exam（HLE）37.7。Hacker News 与 Asia Times 的综合解读显示，V4-Pro 在主要推理与编程基准上领先 Qwen 3.6 与 Llama 4，但在 HLE 与较硬的 SWE-bench 切片上仍落后于 Gemini 3.1 Pro 与 Claude Opus 等闭源前沿系统。Reuters 同时报道，本次发布触发了中国超大规模厂商对华为昇腾芯片的抢购。

Hugging Face 上的 DeepSeek 模型卡缩略图 — 来源：Hugging Face 上 DeepSeek 模型卡公开缩略图（由 huggingface.co 提供）。

业内反应沿着如今已经熟悉的地缘断层线分化。美国外交关系委员会（CFR）将本次发布定性为"中美 AI 竞争的新阶段"，指出美国官员公开指控 DeepSeek 使用走私的 Blackwell 芯片训练 V4，并对美国前沿模型实施"产业规模的蒸馏行为"，4 月美国务院已就此向盟友发出外交指令。Forbes 专栏作家 Markman 认为，V4 加上 Qwen 系列"重塑了开源 AI 竞争格局"；Reuters 则在评估股票市场反应时，将 V4 描述为本年度最强的开源发布之一，但同时"并未让市场为之雀跃"的模型。

在我们看来，V4 的意义更多体现在它把开源权重的"价格底线"再次下移，而不是任何单一基准的具体得分。我们的角色引擎与 persona 技术栈，优先优化推理成本、延迟与端侧可行性，然后才是原生智力指标。激活 490 亿、总参数 1.6 万亿的 MoE 直接嵌入面向消费者的本地优先桌面实现仍然偏大，但它把我们能在角色游戏后端、以及对外授权给 B2B 客户的推理集群上部署的能力上限抬升了一档。本次发布同时再次强化我们的基本方针：角色层不绑定任何单一基础模型 — 不论开源还是闭源 — 这样无论哪个模型在具体场景下胜出，我们都骑在它之上而不是被它压在下面。

接下来 12 个月，我们会持续关注三件事：(1) 在美国出口管制持续收紧的背景下，DeepSeek 能否维持目前约半年一代的迭代节奏 — 训练 1.6 万亿 MoE 所需的连续算力，靠走私 Blackwell 管线很难稳定提供；(2) V4-Flash 2,840 亿变体能否成长为我们这种规模团队部署中等延迟角色引擎类产品时的实用主力 — 其作为旗舰基准与实际可部署形态之间填空层的价值；(3) 开源许可的传导路径 — 下游中国云厂商在二次分发时是否尊重 MIT，欧美企业采购体系是否真的把 MIT 授权的中国权重视为可部署的对象。

Share

DeepSeek 发布 V4：1.6 万亿参数、1M token 上下文，延续 MIT 协议开源

Related Articles

远方世界开放 ORDO 内测预约，并上线产品网站

五角大楼向 7 家 AI 供应商授予机密网络合同，Anthropic 因使用条款分歧被排除

远方世界、公开桌面端语音输入产品 ORDO（原 HUM）