OpenAI 推出 o3 和 o3 Mini 推理模型

OpenAI 日前展示了即将推出的 o3 系列推理模型。与现有的 o1 系列类似，o3 系列将包括 o3 和 o3 mini 模型。从今天开始，它已开始共享 o3 模型，用于安全和保安测试。感兴趣的安全和保安研究人员也可以申请在公开发布前使用 o3 模型。o3 模型预计将于 2025 年向公众开放。

ARC Prize 官方高度评价新版模型：“OpenAI 的新 o3 模型代表了人工智能适应新任务能力的重大飞跃。这不仅仅是渐进式的改进，而是真正意义上的突破，与 LLMs 之前的局限性相比，标志着人工智能能力的质变。o3 是一个能够适应从未遇到过的任务的系统，可以说在 ARC-AGI 领域接近人类水平的表现。”

OpenAI 还分享了一些 o3 模型的基准数据。

本站电报频道 / 电报群

o3 在 ARC-AGI 半私密评估中取得了突破性的 75.7% 高分。在高计算能力的 o3 配置下，它在半私密评估中获得了 87.5% 的分数。
在 EpochAI 前沿数学基准测试中，o3 解决了 25.2% 的问题，而现有模型只解决了 2%。
在 SWE-Bench 验证中，o3 得分 71.7，比 o1 高 22.8 分。
在 Codeforces 上，o3 的 Elo 值为 2727。
在 AIME 2024 中，o3 获得了 96.7% 的分数。相比之下，o1 的得分是 83.3。
在 GPQA Diamond 中，o3 的得分率为 87.7%。相比之下，o1 的得分率为 78%。

OpenAI 推出 o3 和 o3 Mini 推理模型

发表回复