OpenAI o3
开发者 | OpenAI |
---|---|
首次发布 | 2025年1月31日 |
类型 | GPT |
许可协议 | 专有 |
网站 | https://openai.com/index/openai-o3-mini/ |
OpenAI o3是由OpenAI发布的生成式预训练(GPT) 模型。作为截至2025年2月OpenAI最新发布的模型[1],OpenAI o3是OpenAI o1的升级版本,它在需要推理的问题上保留了更多的计算和思考时间,提高了回答的准确性和深度。 [2] [3]
命名
[编辑]OpenAI之所以采用“o3”这一名称,是为了避免与欧洲电信运营商品牌O2的商标发生冲突。
版本
[编辑]此代模型正式提供服务的包括两个版本:o3-mini和o3-mini-high[1],Open AI o3完整版尚未正式发布。在2024年12月,OpenAI曾邀请安全研究人员进行内部试用。 [2] [4]2025年1月31日,OpenAI正式向所有ChatGPT用户(包括免费用户)和API用户发布了o3-mini,这也是免费用户首次可以使用的“推理”模型,其特点是在输出回答之前需要一段时间的“思考”。
使用限制
[编辑]尽管o3-mini对所有注册用户开放使用,但目前o3-mini的使用仍然存在很多限制:对于plus用户,o3-mini限制每天150次提问;o3-mini-high限制每周50次提问(此限制未在OpenAI官网中标注,故未来可能会做出改变)。[5]
特性
[编辑]OpenAI o3-mini采用类似强化学习的方式,使其在回答之前进行“思考”。OpenAI将其称为“私有思维链(private chain of thought)”。这种方法使模型能够提前规划推理任务,执行一系列中间推理步骤来协助解决问题,但代价是需要额外的算力和更长的响应时间。[6]
OpenAI o3、Open AI o3 mini与OpenAI o1的比较
[编辑]测试版 | 正式版 |
---|---|
o3-mini(low) | |
o3-mini(medium) | o3-mini |
o3-mini(high) | o3-mini-high |
o3 | o3 |
在编程、数学和科学等复杂逻辑任务上,o3的表现明显优于o1。[2] 据OpenAI在其网站上发布的数据,o3在包含网上未公开的专家级科学问题的GPQA Diamond 基准上得分为87.7%,o3-mini(medium)为76.8%,o1则为78.0%。[1] [7]
在评估解决实际GitHub问题能力的软件工程基准SWE-bench Verified中,o3的得分为71.7%,o3-mini(medium)的得分为42.9%,而o1的得分为48.9%。在Codeforces上,o3的Elo分数达到了2727,o3-mini(medium)的分数为2036,而o1的分数为1891。[1][7]
在通用人工智能抽象与推理语料库 (ARC-AGI) 基准测试中,o3的准确率是o1的三倍。该测试用于评估人工智能解决新颖逻辑问题、和技能习得问题的能力。[2] [8]
参考
[编辑]- ^ 1.0 1.1 1.2 1.3 OpenAI o3-mini. openai.com. [2025-02-02]. (原始内容存档于2025-02-08) (美国英语).
- ^ 2.0 2.1 2.2 2.3 Knight, Will. OpenAI Upgrades Its Smartest AI Model With Improved Reasoning Skills. Wired. 2024-12-20 [2025-02-02]. (原始内容存档于2024-12-20).
- ^ Metz, Cade. OpenAI Unveils New A.l. That Can 'Reason' Through Math and Science Problems. The New York Times. 2024-12-20 [2025-02-02]. (原始内容存档于2025-02-09).
- ^ Early access for safety testing. OpenAI. 2024-12-20 [2025-02-02]. (原始内容存档于2024-12-21).
- ^ Healthy-Nebula-3603. O3 mini high - WHY ONLY 50 USES PER WEEK!. r/OpenAI. 2025-02-01 [2025-02-02].
- ^ Zeff, Maxwell; Wiggers, Kyle. OpenAI announces new o3 models. TechCrunch. 2024-12-20 [2024-12-22]. (原始内容存档于2024-12-20) (美国英语).
- ^ 7.0 7.1 Franzen, Carl; David, Emilia. OpenAI confirms new frontier models o3 and o3-mini. VentureBeat. 2024-12-20 [2024-12-26]. (原始内容存档于2025-01-20) (美国英语).
- ^ Hsu, Jeremy. OpenAI's o3 model aced a test of AI reasoning – but it's still not AGI. New Scientist. 2024-12-20 [2024-12-22]. (原始内容存档于2025-02-01) (美国英语).