2026 年 4 月 24 日,深度求索(DeepSeek)正式发布全新系列大模型 DeepSeek-V4 预览版,并同步在 HuggingFace 和 ModelScope 上全量开源。这不仅是 DeepSeek 系列的一次重大迭代,更标志着百万 Token 超长上下文首次成为开源模型的标配能力。
在其发布前后的一周内,全球 AI 领域上演了一场罕见的「巅峰对决」:Opus 4.7 于 4 月 16 日上线,GPT-5.5 于 4 月 23 日发布。DeepSeek-V4 选择在这个时间窗口发布,其技术实力不言而喻。
DeepSeek-V4 发布两个尺寸的模型,覆盖从极致性价比到旗舰性能的不同场景:
| 属性 | V4-Pro(旗舰) | V4-Flash(高效) |
|---|---|---|
| 总参数 | 1.6 万亿 | 2840 亿 |
| 激活参数 | 490 亿 | 130 亿 |
| Transformer 层数 | 61 | 43 |
| 专家数 (MoE) | 384 | 256 |
| 上下文长度 | 1,000,000 tokens | 1,000,000 tokens |
| 最大输出长度 | 384,000 tokens | 384,000 tokens |
| 预训练数据 | > 32T tokens | > 32T tokens |
| 权重精度 | FP4 + FP8 Mixed | FP4 + FP8 Mixed |
| 开源许可 | MIT License | MIT License |
| API 模型名 | deepseek-v4-pro | deepseek-v4-flash |
DeepSeek-V4 的技术报告揭示了四项关键架构创新,全部聚焦于「信号流动」与「梯度更新」的效率:
为残差连接增加数学约束,将其映射到双随机矩阵流形上。谱范数恒 ≤ 1,从根源上防止深层堆叠时的梯度爆炸,使 61 层 Transformer 训练更稳定。这解决了 MoE 大模型深层次训练的核心稳定性问题。
DeepSeek-V4 开创了一套「粗细两把筛子」的注意力架构,在 Transformer 块间交替使用:
效果惊人:在 1M 上下文下,KV Cache 仅为 GQA8 baseline 的 ~2%(节省 98%),单 token 推理 FLOPs 降至 V3.2 的 27%(9.8x 效率提升)。
使用 Newton-Schulz 迭代将动量矩阵投影为正交矩阵,确保每个方向的更新步长相等。训练更稳定,收敛更快,且可直接复用 AdamW 的超参数。
量化感知训练确保训练与推理的比特级一致。采用混合精度存储方案:
大幅节省显存的同时,模型能力不掉点。
以下为 V4-Pro 在各项关键基准上与全球顶级闭源模型的对比(数据源自官方技术报告):
| 基准测试 | 类别 | V4-Pro | GPT-5.5 | Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| Codeforces (Elo) | 竞赛编程 | 3206 | — | — | 3052 |
| LiveCodeBench (Pass@1) | 代码生成 | 93.5% | — | — | 91.7% |
| Putnam-2025 (Lean) | 数学证明 | 120/120 | — | — | — |
| Apex Shortlist | 数学奥赛 | 90.2% | — | — | 89.1% |
| SWE-Bench Verified | 软件工程 | 80.6% | 87.6% | — | 80.6% |
| MCPAtlas Public (Pass@1) | MCP 工具 | 73.6% | 67.2% | 73.8% | 69.2% |
| Toolathlon (Pass@1) | 工具调用 | 51.8% | 54.6% | 47.2% | 48.8% |
| 基准测试 | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High |
|---|---|---|---|---|
| MMLU-Pro (EM) | 87.5 | 89.1 | 87.5 | 91.0 |
| SimpleQA-Verified | 57.9 | 46.2 | 45.3 | 75.6 |
| Chinese-SimpleQA | 84.4 | 76.4 | 76.8 | 85.9 |
| Terminal-Bench 2.0 | 67.9 | 65.4 | 75.1 | 68.5 |
| MRCR 1M (MMR) | 83.5 | 92.9 | — | 76.3 |
| HLE | 37.7 | — | — | 44.4 |
关键结论:编程和数学推理上 V4-Pro 已超越大部分闭源模型(LiveCodeBench 93.5 最高、Codeforces 3206 最高);综合知识仍落后于 Gemini 3.1 Pro;中文能力是差异化强项。
V4 最令人惊叹的成就不仅在于能力提升,更在于效率飞跃:
| 对比维度 | V3.2 | V4-Pro | 改善幅度 |
|---|---|---|---|
| 单 Token 推理 FLOPs | 100% | 27% | ⬇️ 3.7x |
| KV Cache 占用 | 100% | 10% | ⬇️ 10x |
| MMLU-Pro (Base) | 65.5 | 73.5 | ⬆️ +8 分 |
| LongBench-V2 (Base) | 40.2 | 51.5 | ⬆️ +11.3 分 |
| HumanEval (Base) | 62.8 | 76.8 | ⬆️ +14 分 |
| FACTS Parametric (Base) | 27.1 | 62.6 | ⬆️ +35.5 分 |
V4-Flash 以仅为 V3.2-Base 五分之一的激活参数实现全面反超,堪称「价格屠夫」。
DeepSeek-V4 的定价策略极具侵略性,意图以「普惠」路线抢占市场份额:
| 模型 | 输入(缓存命中) | 输入(缓存未命中) | 输出 |
|---|---|---|---|
| V4-Pro | ¥1 / M tokens | ¥12 / M tokens | ¥24 / M tokens |
| V4-Flash | ¥0.2 / M tokens | ¥1 / M tokens | ¥2 / M tokens |
官方特别说明:「受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。」
DeepSeek-V4 在 Agent 能力上进行了专项优化,这是其最重要的能力增长点之一:
V4-Pro 在 Agentic Coding 评测中达到当前开源模型最佳水平。内部使用反馈显示:
| 基准测试 | V4-Pro | GPT-5.5 | Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 67.9% | 82.7% | — | 68.5% |
| SWE-Bench Verified | 80.6% | 87.6% | — | 80.6% |
| MCPAtlas Public | 73.6% | 67.2% | 73.8% | 69.2% |
| Toolathlon | 51.8% | 54.6% | 47.2% | 48.8% |
两个版本均支持非思考模式与思考模式。思考模式下支持 reasoning_effort 参数(high / max),复杂 Agent 场景建议启用思考模式并将强度设为 max。
DeepSeek-V4 已针对主流 Agent 产品进行适配,可以直接替换引擎:
切换 model_name 即可使用 V4-Pro 或 V4-Flash
V4-Pro 是其唯一可用的开源 Agentic Coding 默认选项
V4-Flash 的 1M 上下文和低价适合长文件重构场景
首个原生接入的国产开源模型
API 同时兼容 OpenAI ChatCompletions 与 Anthropic 接口,多数 Agent 仅需改一行 model_name 即可切换。
⚠️ 旧接口deepseek-chat和deepseek-reasoner将于 2026-07-24 停止使用。过渡期内分别映射至 V4-Flash 的非思考模式和思考模式。
DeepSeek-V4 在中文任务上展现出显著优势:
| 测试 | V4-Pro Max | Opus 4.6 Max | GPT-5.4 xHigh | Gemini 3.1 Pro High |
|---|---|---|---|---|
| Chinese-SimpleQA | 84.4 | 76.4 | 76.8 | 85.9 |
| 日常中文写作 vs Gemini 3.1 Pro | 77.5% 胜率 | — | — | — |
在中文知识和写作方面,V4-Pro 已接近甚至部分超越 Gemini 3.1 Pro,大幅领先于其他闭源模型。
DeepSeek 团队在技术报告中进行了罕见的坦诚自评,明确指出了 V4 的短板:
高难度创意写作是 V4-Pro 最明显的短板:
论文原话:「所有开源模型仍落后闭源对手」。在 Terminal-Bench 2.0 上落后 GPT-5.5 近 15 分。
HLE / GPQA / MMLU-Pro 仍被 Gemini 3.1 Pro 压制。V4-Pro-Max HLE 得分 37.7,比 Gemini 低 6.7 分。
受限于高端算力,Pro 版本的 API 服务吞吐有限。官方预计下半年昇腾 950 超节点批量上市后将得到大幅改善。
DeepSeek-V4 的发布标志着开源大模型首次在编程与数学推理赛道上比肩甚至超越顶级闭源模型。虽然在高难度创意写作、知识广度上仍有差距,但其 1M 上下文标配 + 极致定价 的组合将深刻改变 AI 行业的竞争格局。
对于开发者而言,V4-Flash 以 ¥2/M 的输出价格提供 1M 上下文,使超长文档处理、大规模代码重构、深度 Agent 任务等场景的成本降低至闭源方案的十分之一甚至百分之一。这是真正意义上的「百万上下文普惠时代」。
「不诱于誉,不恐于诽,率道而行,端然正己。」
—— 荀子 · 非十二子
DeepSeek 团队以此自勉,强调长期主义与持续创新。