DeepSeek-V3

DeepSeek V3
开发者	深度求索
首次发布	2024年12月26日，3个月前
当前版本	2025年3月24日，7天前
前任	DeepSeek-V2.5-1210
类型	大型语言模型; 基于转换器的生成式预训练模型; 基础模型;
许可协议	MIT许可证
网站	www.deepseek.com

DeepSeek-V3是深度求索于2024年12月16日发布的人工智能大型语言模型，专门适用于数学、编码和中文等任务，性能对标GPT-4o等竞争产品^[1]。DeepSeek-V3在所有模型中排名第七，在开源模型排第一。而且，DeepSeek-V3是全球前十中性价比最高的模型。^[2]

开发

DeepSeek-V3是深度求索于2024年12月26日发布的人工智能大型语言模型，这款采用MoE（混合专家）架构的模型不仅在性能上媲美顶级闭源模型，其低成本高效率的特点更是引发业界关注。相较于前代产品，新模型的生成速度提升了3倍，每秒钟可处理60个token，显著提升了实际应用效率。而为了提高训练效率，研究采用了 FP8 混合精度训练技术并对训练框架进行了全面优化。低精度训练作为一种高效率的训练方案，其发展与硬件性能的提升密切相关。本研究首次在超大规模模型上成功验证了 FP8 混合精度训练架构的有效性。透过采用 FP8 运算和存储技术，显著提升了训练速度并降低了 GPU 存储器占用。^[3]在性能方面，DeepSeek-V3展现出卓越实力。它不仅超越了Qwen2.5-72B和Llama-3.1-405B等知名开源模型，更在多项测试中与GPT-4和Claude-3.5-Sonnet不相上下。特别是在数学能力测试中，该模型以优异成绩超越了所有现有开源和闭源模型。^[4]最引人注目的是DeepSeek-V3的低成本优势。根据开源论文和DeepSeek披露该大模型的训练系基于2,048块英伟达H800型GPU（针对中国大陆市场的低配版GPU）集群上执行55天完成，按每GPU小时2美元计算，模型全部训练成本仅为557.6万美元，这个数字只有（据估计投资超过5亿美元）前者的1%。^[5]

使用

DeepSeek-V3使用MIT协议开源，意味着任何人都可以自由使用该模型，包括商业用途。用户可以在DeepSeek官方网站和App使用官方提供的服务。

DeepSeek-V3上线时提供的API服务优惠定价为每百万输入tokens 0.1元（缓存命中）或1元（缓存未命中），每百万输出tokens 2元。

2025年2月9日，DeepSeek-V3 API服务优惠期结束，价格变为输入token每百万两元，输出token每百万八元，涨幅明显。^[6]

外界反应

DeepSeek-V3发布后，英伟达股价下跌了2%，被指与此模型有关。^[2]^[可疑]

OpenAI创始团队成员、高级研究科学家Andrej Karpathy表示，DeepSeek仅用了280万小时的GPU算力，就训练出了比Llama-3 405B（使用3080万小时GPU）更强的前沿模型，整体成本节省了11倍左右，这表明，即便在计算力有限的情况下，即使使用高质量的数据模型，更好的算法同样能训练出高性能大模型。^[7]

Scale AI创办人亚历山大•王表示，中国领先的大型语言模型实验室DeepSeek选择在圣诞节发布其最新型号V3，这项举措颇具深意。性能与GPT-4o和Claude 3.5 Sonnet不相上下，但训练所使用的算力资源仅为前者的十分之一，中国科技界的辛酸教训是：当美国休息时，中国正在工作，以更低的成本、更快的速度迎头赶上，变得更强。^[8]

版本迭代

2025年3月24日，DeepSeek V3发布版本更新V3-0324。据报道，该版本在所有基准测试中都有明显进步，尤其以编程能力提升为一大亮点，可能为迄今最强大的非推理模型。^[9]

参见

GPT-4o

参考资料

^ DeepSeek-AI; Aixin Liu; Bei Feng; et al, DeepSeek-V3 Technical Report (PDF), 2024-12-27, arXiv:2412.19437 , doi:10.48550/ARXIV.2412.19437, Wikidata Q131924365 （英语）
^ ^2.0 ^2.1 “DeepSeek或彻底改变游戏规则”！中国大模型“搅动”硅谷，巨头进入恐慌模式，外媒刷屏，大佬发声：中国AI已追上美国. 每日经济新闻. [2025-01-29]. （原始内容存档于2025-01-30）.
^ 幻方量化重磅发布DeepSeek-V3：性能媲美GPT-4，训练成本创新低. www.aibase.com. [2025-03-07] （中文）.
^ DeepSeek-V3 正式发布 | DeepSeek API Docs. api-docs.deepseek.com. [2025-03-07]. （原始内容存档于2025-01-23）（中文（中国大陆））.
^ 腾讯网. Deepseek v3正式发布：用557.6万美金比肩Claude 3.5_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. （原始内容存档于2025-01-09）（中文（中国大陆））.
^ DeepSeek-V3收费加价. 联合早报. 2025-02-10 [2025-03-02] （中文（简体））.
^ Andrej Karpathy (@karpathy) on X. X (formerly Twitter). [2025-03-07]. （原始内容存档于2025-03-09）（英语）.
^ 腾讯网. DeepSeek V3获众多AI大佬赞誉：高性能低成本是智慧和实用主义的体现_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. （原始内容存档于2024-12-27）（中文（中国大陆））.
^ DeepSeek发布V3模型更新提升编程能力. 联合早报. 2025-03-25 （中文（中国大陆））.

外部链接

DeepSeek-V （页面存档备份，存于互联网档案馆）性能与GPT-4o和Claude 3.5 Sonnet不相上下，并且训练所使用的算力资源仅为前者的十分之一正式发布 | DeepSeek API Docs （页面存档备份，存于互联网档案馆）
deepseek-ai/DeepSeek-V3 （页面存档备份，存于互联网档案馆）

[1] DeepSeek-AI; Aixin Liu; Bei Feng; et al, DeepSeek-V3 Technical Report (PDF), 2024-12-27, arXiv:2412.19437 , doi:10.48550/ARXIV.2412.19437, Wikidata Q131924365 （英语）

[:0-2] 2.0 ^2.1 “DeepSeek或彻底改变游戏规则”！中国大模型“搅动”硅谷，巨头进入恐慌模式，外媒刷屏，大佬发声：中国AI已追上美国. 每日经济新闻. [2025-01-29]. （原始内容存档于2025-01-30）.

[3] 幻方量化重磅发布DeepSeek-V3：性能媲美GPT-4，训练成本创新低. www.aibase.com. [2025-03-07] （中文）.

[4] DeepSeek-V3 正式发布 | DeepSeek API Docs. api-docs.deepseek.com. [2025-03-07]. （原始内容存档于2025-01-23）（中文（中国大陆））.

[5] 腾讯网. Deepseek v3正式发布：用557.6万美金比肩Claude 3.5_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. （原始内容存档于2025-01-09）（中文（中国大陆））.

[6] DeepSeek-V3收费加价. 联合早报. 2025-02-10 [2025-03-02] （中文（简体））.

[7] Andrej Karpathy (@karpathy) on X. X (formerly Twitter). [2025-03-07]. （原始内容存档于2025-03-09）（英语）.

[8] 腾讯网. DeepSeek V3获众多AI大佬赞誉：高性能低成本是智慧和实用主义的体现_腾讯新闻. news.qq.com. 2024-12-27 [2025-03-07]. （原始内容存档于2024-12-27）（中文（中国大陆））.

[9] DeepSeek发布V3模型更新提升编程能力. 联合早报. 2025-03-25 （中文（中国大陆））.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]