DeepSeek-V4 深度研究报告：迈入百万上下文普惠时代

📋 报告总览

2026 年 4 月 24 日，深度求索（DeepSeek）正式发布全新系列大模型 DeepSeek-V4 预览版，并同步在 HuggingFace 和 ModelScope 上全量开源。这不仅是 DeepSeek 系列的一次重大迭代，更标志着百万 Token 超长上下文首次成为开源模型的标配能力。

在其发布前后的一周内，全球 AI 领域上演了一场罕见的「巅峰对决」：Opus 4.7 于 4 月 16 日上线，GPT-5.5 于 4 月 23 日发布。DeepSeek-V4 选择在这个时间窗口发布，其技术实力不言而喻。

V4-Pro 总参数

1.6 T

激活参数 49B · 384 专家

V4-Flash 总参数

284 B

激活参数 13B · 256 专家

上下文长度

1M

百万 Token · 全线标配

KV Cache 节省

~98%

相比 GQA8 baseline

推理 FLOPs 节省

73%

相比 V3.2

Flash 输出价格

¥2 / M

每百万 Token 仅 2 元

⚙️ 模型规格全览

DeepSeek-V4 发布两个尺寸的模型，覆盖从极致性价比到旗舰性能的不同场景：

属性	V4-Pro（旗舰）	V4-Flash（高效）
总参数	1.6 万亿	2840 亿
激活参数	490 亿	130 亿
Transformer 层数	61	43
专家数 (MoE)	384	256
上下文长度	1,000,000 tokens	1,000,000 tokens
最大输出长度	384,000 tokens	384,000 tokens
预训练数据	> 32T tokens	> 32T tokens
权重精度	FP4 + FP8 Mixed	FP4 + FP8 Mixed
开源许可	MIT License	MIT License
API 模型名	`deepseek-v4-pro`	`deepseek-v4-flash`

🏗️ 四大架构创新

DeepSeek-V4 的技术报告揭示了四项关键架构创新，全部聚焦于「信号流动」与「梯度更新」的效率：

1. mHC — Manifold-Constrained Hyper-Connections

为残差连接增加数学约束，将其映射到双随机矩阵流形上。谱范数恒 ≤ 1，从根源上防止深层堆叠时的梯度爆炸，使 61 层 Transformer 训练更稳定。这解决了 MoE 大模型深层次训练的核心稳定性问题。

2. CSA + HCA — 混合注意力机制

DeepSeek-V4 开创了一套「粗细两把筛子」的注意力架构，在 Transformer 块间交替使用：

CSA（压缩稀疏注意力）：使用 Lightning Indexer 挑选 top-k token 进行稀疏计算
HCA（重度压缩注意力）：激进压缩后进行全局密集扫描，弥补稀疏注意力可能遗漏的全局信息

效果惊人：在 1M 上下文下，KV Cache 仅为 GQA8 baseline 的 ~2%（节省 98%），单 token 推理 FLOPs 降至 V3.2 的 27%（9.8x 效率提升）。

3. Muon 优化器

使用 Newton-Schulz 迭代将动量矩阵投影为正交矩阵，确保每个方向的更新步长相等。训练更稳定，收敛更快，且可直接复用 AdamW 的超参数。

4. FP4 QAT — 量化感知训练

量化感知训练确保训练与推理的比特级一致。采用混合精度存储方案：

RoPE 维度：BF16
其余 KV：FP8
Lightning Indexer：FP4

大幅节省显存的同时，模型能力不掉点。

📊 基准测试全览

以下为 V4-Pro 在各项关键基准上与全球顶级闭源模型的对比（数据源自官方技术报告）：

🟢 V4-Pro 优势领域：编程与推理

基准测试	类别	V4-Pro	GPT-5.5	Opus 4.7	Gemini 3.1 Pro
Codeforces (Elo)	竞赛编程	3206	—	—	3052
LiveCodeBench (Pass@1)	代码生成	93.5%	—	—	91.7%
Putnam-2025 (Lean)	数学证明	120/120	—	—	—
Apex Shortlist	数学奥赛	90.2%	—	—	89.1%
SWE-Bench Verified	软件工程	80.6%	87.6%	—	80.6%
MCPAtlas Public (Pass@1)	MCP 工具	73.6%	67.2%	73.8%	69.2%
Toolathlon (Pass@1)	工具调用	51.8%	54.6%	47.2%	48.8%

🟡 V4-Pro 与闭源竞争：综合知识

基准测试	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini 3.1 Pro High
MMLU-Pro (EM)	87.5	89.1	87.5	91.0
SimpleQA-Verified	57.9	46.2	45.3	75.6
Chinese-SimpleQA	84.4	76.4	76.8	85.9
Terminal-Bench 2.0	67.9	65.4	75.1	68.5
MRCR 1M (MMR)	83.5	92.9	—	76.3
HLE	37.7	—	—	44.4

关键结论：编程和数学推理上 V4-Pro 已超越大部分闭源模型（LiveCodeBench 93.5 最高、Codeforces 3206 最高）；综合知识仍落后于 Gemini 3.1 Pro；中文能力是差异化强项。

📈 效率革命：数据处理对比

V4 最令人惊叹的成就不仅在于能力提升，更在于效率飞跃：

对比维度	V3.2	V4-Pro	改善幅度
单 Token 推理 FLOPs	100%	27%	⬇️ 3.7x
KV Cache 占用	100%	10%	⬇️ 10x
MMLU-Pro (Base)	65.5	73.5	⬆️ +8 分
LongBench-V2 (Base)	40.2	51.5	⬆️ +11.3 分
HumanEval (Base)	62.8	76.8	⬆️ +14 分
FACTS Parametric (Base)	27.1	62.6	⬆️ +35.5 分

V4-Flash 以仅为 V3.2-Base 五分之一的激活参数实现全面反超，堪称「价格屠夫」。

💰 定价策略分析

DeepSeek-V4 的定价策略极具侵略性，意图以「普惠」路线抢占市场份额：

模型	输入（缓存命中）	输入（缓存未命中）	输出
V4-Pro	¥1 / M tokens	¥12 / M tokens	¥24 / M tokens
V4-Flash	¥0.2 / M tokens	¥1 / M tokens	¥2 / M tokens

V4-Pro vs 闭源模型输出价

vs Opus 4.7

~1/22.5

V4-Pro ¥24 vs $25/M

vs GPT-5.5

~1/9

V4-Pro ¥24 vs $30/M

vs Gemini 3.1 Pro

~1/3.6

V4-Pro ¥24 vs $12/M

Flash vs Haiku 4.5

~1/18

V4-Flash ¥2 vs $1-5/M

官方特别说明：「受限于高端算力，目前 Pro 的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下调。」

🤖 Agent 能力专项分析

DeepSeek-V4 在 Agent 能力上进行了专项优化，这是其最重要的能力增长点之一：

Agentic Coding 评测

V4-Pro 在 Agentic Coding 评测中达到当前开源模型最佳水平。内部使用反馈显示：

优于 Sonnet 4.5
交付质量接近 Opus 4.6 非思考模式
但仍与 Opus 4.6 思考模式有差距

工具调用与 MCP

基准测试	V4-Pro	GPT-5.5	Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	67.9%	82.7%	—	68.5%
SWE-Bench Verified	80.6%	87.6%	—	80.6%
MCPAtlas Public	73.6%	67.2%	73.8%	69.2%
Toolathlon	51.8%	54.6%	47.2%	48.8%

思考模式

两个版本均支持非思考模式与思考模式。思考模式下支持 reasoning_effort 参数（high / max），复杂 Agent 场景建议启用思考模式并将强度设为 max。

🔗 生态适配与兼容性

DeepSeek-V4 已针对主流 Agent 产品进行适配，可以直接替换引擎：

Claude Code

切换 model_name 即可使用 V4-Pro 或 V4-Flash

OpenClaw

V4-Pro 是其唯一可用的开源 Agentic Coding 默认选项

OpenCode

V4-Flash 的 1M 上下文和低价适合长文件重构场景

CodeBuddy

首个原生接入的国产开源模型

API 同时兼容 OpenAI ChatCompletions 与 Anthropic 接口，多数 Agent 仅需改一行 model_name 即可切换。

⚠️ 旧接口 deepseek-chat 和 deepseek-reasoner 将于 2026-07-24 停止使用。过渡期内分别映射至 V4-Flash 的非思考模式和思考模式。

🇨🇳 中文能力专项

DeepSeek-V4 在中文任务上展现出显著优势：

测试	V4-Pro Max	Opus 4.6 Max	GPT-5.4 xHigh	Gemini 3.1 Pro High
Chinese-SimpleQA	84.4	76.4	76.8	85.9
日常中文写作 vs Gemini 3.1 Pro	77.5% 胜率	—	—	—

在中文知识和写作方面，V4-Pro 已接近甚至部分超越 Gemini 3.1 Pro，大幅领先于其他闭源模型。

⚠️ 已知局限与坦诚自评

DeepSeek 团队在技术报告中进行了罕见的坦诚自评，明确指出了 V4 的短板：

🎨 品味与创意写作

高难度创意写作是 V4-Pro 最明显的短板：

对 Claude Opus 4.5 胜率仅 45.9%
日常中文写作对 Gemini 3.1 Pro 胜率 77.5%（几乎碾压）

🤖 Agent 长任务

论文原话：「所有开源模型仍落后闭源对手」。在 Terminal-Bench 2.0 上落后 GPT-5.5 近 15 分。

📚 知识广度

HLE / GPQA / MMLU-Pro 仍被 Gemini 3.1 Pro 压制。V4-Pro-Max HLE 得分 37.7，比 Gemini 低 6.7 分。

🚀 吞吐限制

受限于高端算力，Pro 版本的 API 服务吞吐有限。官方预计下半年昇腾 950 超节点批量上市后将得到大幅改善。

🎯 总结与展望

✅ 核心优势

✓ 百万 Token 原生上下文，全线标配
✓ 编程与数学推理超越多数闭源模型
✓ 效率革命：KV Cache 节省 98%
✓ 极致性价比：Flash 仅 ¥2/M 输出
✓ 中文能力全球领先
✓ MIT 开源，权重完全开放
✓ Agent/MCP 能力接近闭源前沿
✓ 兼容 OpenAI 和 Anthropic 接口

⚠️ 待改进

✗ 高难度创意写作落后 Claude Opus
✗ Agent 长任务能力不及 GPT-5.5
✗ 综合知识仍弱于 Gemini 3.1 Pro
✗ Pro 版本吞吐受限
✗ 服务尚未实现全球覆盖
✗ 生态工具链仍需完善

📌 结语

DeepSeek-V4 的发布标志着开源大模型首次在编程与数学推理赛道上比肩甚至超越顶级闭源模型。虽然在高难度创意写作、知识广度上仍有差距，但其 1M 上下文标配 + 极致定价 的组合将深刻改变 AI 行业的竞争格局。

对于开发者而言，V4-Flash 以 ¥2/M 的输出价格提供 1M 上下文，使超长文档处理、大规模代码重构、深度 Agent 任务等场景的成本降低至闭源方案的十分之一甚至百分之一。这是真正意义上的「百万上下文普惠时代」。

「不诱于誉，不恐于诽，率道而行，端然正己。」
—— 荀子 · 非十二子

DeepSeek 团队以此自勉，强调长期主义与持续创新。

📄 官方公告 🤗 HuggingFace 🔬 深度解读 🚀 立即体验

DeepSeek-V4
迈入百万上下文普惠时代

1.6 万亿参数 · 100 万 Token 原生上下文 · 开源模型首次比肩顶级闭源

📋 报告总览

⚙️ 模型规格全览

🏗️ 四大架构创新

1. mHC — Manifold-Constrained Hyper-Connections

2. CSA + HCA — 混合注意力机制

3. Muon 优化器

4. FP4 QAT — 量化感知训练

📊 基准测试全览

🟢 V4-Pro 优势领域：编程与推理

🟡 V4-Pro 与闭源竞争：综合知识

📈 效率革命：数据处理对比

💰 定价策略分析

V4-Pro vs 闭源模型输出价

🤖 Agent 能力专项分析

Agentic Coding 评测

工具调用与 MCP

思考模式

🔗 生态适配与兼容性

🇨🇳 中文能力专项

⚠️ 已知局限与坦诚自评

🎨 品味与创意写作

🤖 Agent 长任务

📚 知识广度

🚀 吞吐限制

🎯 总结与展望

✅ 核心优势

⚠️ 待改进

📌 结语

DeepSeek-V4迈入百万上下文普惠时代

1.6 万亿参数 · 100 万 Token 原生上下文 · 开源模型首次比肩顶级闭源

📋 报告总览

⚙️ 模型规格全览

🏗️ 四大架构创新

1. mHC — Manifold-Constrained Hyper-Connections

2. CSA + HCA — 混合注意力机制

3. Muon 优化器

4. FP4 QAT — 量化感知训练

📊 基准测试全览

🟢 V4-Pro 优势领域：编程与推理

🟡 V4-Pro 与闭源竞争：综合知识

📈 效率革命：数据处理对比

💰 定价策略分析

V4-Pro vs 闭源模型输出价

🤖 Agent 能力专项分析

Agentic Coding 评测

工具调用与 MCP

思考模式

🔗 生态适配与兼容性

🇨🇳 中文能力专项

⚠️ 已知局限与坦诚自评

🎨 品味与创意写作

🤖 Agent 长任务

📚 知识广度

🚀 吞吐限制

🎯 总结与展望

✅ 核心优势

⚠️ 待改进

📌 结语

DeepSeek-V4
迈入百万上下文普惠时代