OpenAI甩王炸!发布新模型o3,一夜再次改变世界!

今天凌晨2点,OpenAI开启第12天技术直播,也是最后一天。不负众望终于整了个大的,发布全新预览版模型——o3。

根据发布的o3测试数据显示,美国AIME数学竞赛中达到了96.7分,大幅度超过了o1预览版的56.7和o1的83.3%,仅错了一道题相当于一名顶级数学家的水平。

而在ARCAGI的测试中,o3在低算力资源情况下实现了75.7%,而当增加计算资源后实现了87.5%,这也是首次有大模型超过了人类85%的水平,实现重大技术突破。

有意思的是,OpenAI直接跳过了o2发布了o3,主要原因是名字与英国著名电信公司o2发生了冲突无法使用,所以才直接来了个第三代~

o3主要测试数据

在软件风格基准测试中,由真实世界软件任务组成的3benchverified基准测试里,o3模型准确率达到71.7%,相比o1模型提升超过20%。

OpenAI甩王炸!发布新模型o3,一夜再次改变世界!

在竞赛代码领域,o3模型在CodeForces竞赛编码网站上表现卓越,达到了约2727的ELO分数,远超o1模型的1891分,甚至超越了OpenAI首席科学家Yakov的分数,接近公司内部顶尖编程高手的水平,这表明o3在处理复杂编程竞赛任务时具备出色的逻辑推理和算法实现能力。

在数学能力测试中,o3模型在Amy考试中的准确率高达96.7%,而o1模型为83.3%。在这个被视为美国数学奥林匹克预选考试的高难度测试中,o3模型通常仅错一题,表现十分出色。

在衡量模型在博士阶段科学问题处理能力的GPQADiamond基准测试中,o3模型取得了87.7%的准确率,比o1模型的78%提高了约10%,甚至超越了领域专家博士通常能达到的70%的水平,这表明o3模型在数学和科学领域的复杂问题处理上已接近甚至超越人类专家水平。

OpenAI甩王炸!发布新模型o3,一夜再次改变世界!

在ARCAGI基准测试中,o3模型取得了重大突破。在低计算条件下,o3模型在ARCAGI的半私有保留集上得分为75.7,这一成绩在符合计算要求的同时,成为了新的行业领先水平。

当进一步提升计算能力,让o3模型进行更长时间的思考时,其在同一隐藏保留集上的得分更是高达87.5%。这一成绩尤为重要,因为人类在该测试中的表现阈值约为85%,O3模型的得分超过了这一阈值,标志着人工智能在该领域取得了新的里程碑。

OpenAI甩王炸!发布新模型o3,一夜再次改变世界!

此前,ARCAGI版本一花费了五年时间,才使领先的前沿模型从0%提升到5%,而o3模型的出色表现无疑展示了OpenAI在人工智能技术研发上的巨大进步。

o3Mini版本

与o3模型相比,o3Mini模型在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。

在编码评估方面,o3Mini模型展现出了出色的性能提升。在CodeForces的评估中,随着思考时间的增加,o3Mini模型的表现不断提升,逐渐超越了o1Mini模型。

在中位思考时间下,o3Mini模型的性能甚至优于o1模型,能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下,获得更高效的编程辅助,提高开发效率,降低开发成本。

OpenAI甩王炸!发布新模型o3,一夜再次改变世界!

在数学能力测试中,o3Mini模型在2024年数据集上表现出色。o3Mini低模型的性能与o1Mini相当,而o3Mini中位数模型则取得了比o1更好的性能。在处理诸如GPQA等困难数据集时,o3Mini模型也能展现出一定的优势,实现了接近即时响应的效果。

此外,o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能,与O1模型相当。在实际应用中,o3Mini模型在大多数评估中实现了可比或更好的性能。

在现场演示中,o3Mini 模型的强大功能得到了直观展示。例如,在一项任务中,模型被要求使用Python 实现一个代码生成器和执行器。当启动运行该 Python 脚本后,模型成功启动了本地服务器,并生成了包含文本框的用户界面。

用户在文本框中输入编码请求后,模型能够迅速将请求发送至 API,并自动解决任务,生成代码并保存至桌面,随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理,但 o3Mini 模型在低推理努力模式下依然表现出了极快的处理效率。

目前,该模型还处于安全测试阶段,从今天开始o3Mini 模型率先开放给外部安全研究人员进行测试,随后 o3模型也将参与其中。研究人员可通过访问 OpenAI 的官方网站,填写申请表格参与测试。

快讯转自站长之家,转载请注明出处

上一篇:

下一篇:

最新资讯

  • 爱思助手无法绑定Apple ID怎么办?

    不少人在用爱思助手的时候,都会遇到一个挺让人头疼的问题:明明 Apple ID 和密码都没错,但就是提示无法绑定,反复尝试也不成功。看着一堆提示弹窗,心态很容易直接崩掉。其实这个问…

    2025年12月24日
  • 苹果系统什么版本最好用

    每次苹果发布新系统,总会有一波人跃跃欲试,也总会有一波人默默观望。升级还是不升级,几乎成了果粉的年度哲学问题。系统版本这么多,到底哪个才是真的“最好用”,其实并没有一个放之四海而皆…

    2025年12月24日
  • 苹果手机丢了怎么追踪手机位置显示离线

    (图片来源网络,侵删) 苹果手机丢了,本来就够闹心了,结果打开“查找”,一看:设备显示离线,那种感觉基本等于心凉了一半。很多人第一反应是——是不是彻底找不回来了?其实不一定,关键要…

    2025年12月24日
  • 苹果手机密码忘记了怎么解开不刷机

    (图片来源网络,侵删) 不少人都有过这种崩溃时刻:手机放桌上好好的,拿起来一解锁,突然发现密码怎么都不对。多试几次,直接被提示“已停用”,这时候再去网上一搜,全是“刷机”“清空数据…

    2025年12月24日
  • 鸿蒙系统跟安卓系统有什么区别?

    这几年只要一聊国产手机系统,鸿蒙和安卓几乎绕不开。很多人会问:鸿蒙系统和安卓系统到底有什么区别?是不是换了个名字的安卓?值不值得用?这个问题网上说法很多,但真正能把差别讲清楚的并不…

    2025年12月24日
  • 手机蓝牙打不开一打开就自动关闭怎么回事

    很多人都遇到过这种情况:想连个耳机、车载或者手表,结果蓝牙刚打开,“啪”一下自己又关了,反复几次都一样,看着就让人上火。其实这种问题并不稀奇,原因也没你想的那么玄乎,大多数都能自己…

    2025年12月24日
  • 电脑运行速度慢的原因及解决方法

    电脑变慢这件事,本质上不是“老了”,而是系统在悄悄给自己加负重。优化的目标只有一个:让系统回到“只干正事、不内耗”的状态。下面给你一套优先级明确、有效且不过度折腾的方案。 (图片来…

    2025年12月24日
  • 腾讯会议怎么使用

    腾讯会议作为一款高效便捷的远程会议工具,已经成为许多企业和个人的首选。本文将详细介绍腾讯会议的使用方法,帮助您轻松掌握这款工具。 (图片来源网络,侵删) 准备工作 在使用腾讯会议之…

    2024年8月6日
  • 微信收款积分在哪里查

    微信收款积分是微信平台上的一种激励机制,用户通过使用微信支付进行收款,可以积累积分,并在微信平台内兑换相应的奖励或优惠。对于很多用户来说,如何查找微信收款积分却是一个令人头疼的问题…

    2024年8月6日
  • 管理员权限在哪里设置

    在许多操作系统中,管理员权限是控制计算机或网络系统中特定功能的关键。拥有管理员权限的用户可以对系统进行更深层次的操作,包括安装程序、修改系统设置等。对于一些用户来说,如何设置管理员…

    2024年8月6日