OpenAI 日前展示了即将推出的 o3 系列推理模型。与现有的 o1 系列类似,o3 系列将包括 o3 和 o3 mini 模型。从今天开始,它已开始共享 o3 模型,用于安全和保安测试。感兴趣的安全和保安研究人员也可以申请在公开发布前使用 o3 模型。o3 模型预计将于 2025 年向公众开放。
ARC Prize 官方高度评价新版模型:“OpenAI 的新 o3 模型代表了人工智能适应新任务能力的重大飞跃。这不仅仅是渐进式的改进,而是真正意义上的突破,与 LLMs 之前的局限性相比,标志着人工智能能力的质变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平的表现。”
OpenAI 还分享了一些 o3 模型的基准数据。
- o3 在 ARC-AGI 半私密评估中取得了突破性的 75.7% 高分。在高计算能力的 o3 配置下,它在半私密评估中获得了 87.5% 的分数。
- 在 EpochAI 前沿数学基准测试中,o3 解决了 25.2% 的问题,而现有模型只解决了 2%。
- 在 SWE-Bench 验证中,o3 得分 71.7,比 o1 高 22.8 分。
- 在 Codeforces 上,o3 的 Elo 值为 2727。
- 在 AIME 2024 中,o3 获得了 96.7% 的分数。相比之下,o1 的得分是 83.3。
- 在 GPQA Diamond 中,o3 的得分率为 87.7%。相比之下,o1 的得分率为 78%。