DeepSeek-R1
开发者 | 深度求索 |
---|---|
首次发布 | 2025年1月20日 |
源代码库 | |
前任 | DeepSeek-R1-Lite |
类型 | |
许可协议 | MIT |
网站 | www |
DeepSeek-R1是深度求索(DeepSeek)于2025年1月20日发布的人工智能大型语言模型,专门适用于数学、编码和逻辑等任务,性能对标OpenAI o1[1]。
开发
[编辑]开发者 | 深度求索 |
---|---|
首次发布 | 2024年11月20日 |
源代码库 | |
前任 | DeepSeek V2.5 |
继任 | Deepseek-V3 |
类型 | |
许可协议 | 专有软件 |
网站 | www |
DeepSeek-R1-Lite是深度求索于2024年11月20日发布的人工智能大型语言模型,是深度求索第一个推理模型。专门适用于数学、编码和逻辑等任务,性能对标OpenAI o1,DeepSeek-R1-Lite是Deepseek R1的预览版。[2]DeepSeek称该模型用了强化学习训练,并为用户展现了 o1 没有公开的完整思考过程。而该模型关键特点就是便宜,与OpenAI o1的价格相差极大。Deepseek R1 Lite在回答问题前会花更多时间思考,因此准确度会增强。Deepseek的测试结果表明,在数学竞赛上的得分与测验所允许思考的长度紧密相关,而模型思维炼长度增加展现了更高的效率。[2]
Deepseek-R1-Lite在数学、代码和复杂逻辑推理上,获得媲美 o1-preview 的推理效果。在美国数学邀请赛中DeepSeek 称,该模型在美国邀请数学考试和 MATH 等既定基准上的表现超过了 OpenAI o1 Preview的水平,在国际数学奥林匹克正确率达到83%,它还在Codeforces编程竞赛中优于89%的参赛者,但在GPQA Diamond,LiveCodeBench和自然语言解迷中较为逊色。[3]
DeepSeek-R1的论文中没有公布其训练成本等细节。[4]不过此前的论文中,DeepSeek透露其训练使用的是英伟达因为美国出口管制而针对中国市场特供的低配版GPU H800,训练成本为557.6万美元,远低于类似西方公司的闭源模型。[1][5][6]外界预估R1的训练成本也不会比DeepSeek-V3高多少,或在600万美元上下。[7]
使用
[编辑]DeepSeek-R1使用MIT协议开源,意味着任何人都可以自由使用该模型,包括商业用途。用户可以在DeepSeek官方网站和App使用官方提供的服务。
DeepSeek-R1上线时提供的API服务定价为每百万输入tokens 1元人民币(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,输出API价格仅仅只有OpenAI o1的3%。[8]
外界反应
[编辑]1月27日,DeepSeek超越ChatGPT,登顶苹果App Store美国区免费APP下载排行榜。[9]
DeepSeek-R1爆火,引发全球投资者大量抛售人工智能相关股票。1月27日,英伟达美股股价下跌近17%,单日市值蒸发5890亿美元,为美国股市历史上最大。[10][11]
DeepSeek-R1发布后不久,Meta首席执行官马克·扎克伯格就宣布,Meta计划在2025年投入超600亿美元,加大对人工智能的投入。[7]据媒体1月27日报道,Meta成立了四个研究小组,专门研究DeepSeek的模型。[12]其中两个小组研究其开发者如何降低训练和运行DeepSeek的成本,第三个小组研究训练模型可能使用了哪些数据,第四个小组研究基于DeepSeek模型属性重构其LLaMA模型的新技术。[13]
OpenAI表示,其有证据表明DeepSeek使用OpenAI的专有模型来训练自己的开源模型,这违反了OpenAI的服务条款。[14]
现状与替代方案
[编辑]由于用户量激增,DeepSeek R1曾面临服务器频繁繁忙问题,主要归因可能有多种,包括算力需求、带宽限制及网络攻击。用户可通过本地部署(如Ollama工具)、调用API或使用第三方平台。
参见
[编辑]参考资料
[编辑]- ^ 1.0 1.1 DeepSeek横空出世,美中AI竞争会迎来根本性改变吗?. 美国之音. 2025-01-28 [2025-01-28]. (原始内容存档于2025-01-28) (中文).
- ^ 2.0 2.1 DeepSeek推理模型预览版上线,解密o1推理过程 | DeepSeek API Docs. api-docs.deepseek.com. [2025-01-29]. (原始内容存档于2025-01-26) (中文(中国大陆)).
- ^ Franzen, Carl. DeepSeek’s first reasoning model R1-Lite-Preview turns heads, beating OpenAI o1 performance. VentureBeat. 2024-11-20 [2025-01-29]. (原始内容存档于2024-11-22) (美国英语).
- ^ DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 (PDF). [2025-02-01]. (原始内容存档 (PDF)于2025-01-29).
- ^ DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 (PDF). [2025-02-01]. (原始内容存档 (PDF)于2025-02-01).
- ^ 孙铭蔚. 量化巨头幻方创始人梁文锋参加总理座谈会并发言,他还创办了“AI界拼多多”. 澎湃新闻. 2025-01-22 [2025-01-28]. (原始内容存档于2025-01-26) (中文(中国大陆)).
- ^ 7.0 7.1 吴遇利. DeepSeek“恐惧感”支配硅谷!Meta被曝组建4个小组专门研究. 澎湃新闻. 2025-01-27 [2025-01-29]. (原始内容存档于2025-01-30) (中文(中国大陆)).
- ^ 郑远方. “价格屠夫”DeepSeek的理想主义:开源、降本与AI普惠. 财联社. 2025-01-28 [2025-01-28] (中文(中国大陆)).
- ^ 李潇潇, 胡含嫣. DeepSeek超越ChatGPT,登顶苹果美国区免费APP下载排行榜. 澎湃新闻. 2025-01-27 [2025-01-29]. (原始内容存档于2025-01-27).
- ^ 日本放送协会. ナスダック大幅下落 中国企業ディープシーク 生成AI開発受け. NHKニュース. 2025-01-28 [2025-01-28]. (原始内容存档于2025-01-30) (日语).
- ^ 何浩. 英伟达市值蒸发近6000亿美元,规模创美股史上最大,市值跌至全球第三. 华尔街见闻. 2025-01-28 [2025-01-28]. (原始内容存档于2025-01-28) (中文(中国大陆)).
- ^ Meta Scrambles After Chinese AI Equals Its Own, Upending Silicon Valley. The Information. 2024-01-27 [2025-01-29]. (原始内容存档于2025-01-30) (英语).
- ^ DeepSeek震撼硅谷 Meta组建四个研究小组专门破解. 财联社. 2025-01-27 [2025-01-29].
- ^ OpenAI称有证据表明DeepSeek利用其模型训练竞争对手. RFI - 法国国际广播电台. 2025-01-29 [2025-01-29] (中文(简体)).
外部链接
[编辑]官方网页
[编辑]- DeepSeek-R1-Lite 发布 (页面存档备份,存于互联网档案馆)
- DeepSeek-R1 发布,性能对标 OpenAI o1 正式版 (页面存档备份,存于互联网档案馆)
- deepseek-ai/DeepSeek-R1 (页面存档备份,存于互联网档案馆)