奥特曼率队深夜血战DeepSeek,o3-mini急上线!代价骨折免费用,ChatGPT被挤 ...

来自版块 问答
350
0

新智元报道

编辑:编辑部 HYZ
【新智元导读】眼看DeepSeek风头尽显,被逼急的OpenAI果然告急发布了o3-mni。不但免费用户都能用,每百万输入和输出token代价更是疯狂跳水打骨折价!
o3-mini,真的来了。
刚刚,OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。

诚如奥特曼所言,免费用户直接打开「Reason」即可体验,Plus用户天天会有更多用量,详细来说:
- ChatGPT免费版:初次体验推理模子
- ChatGPT Plus和团队版:天天150次对话限定
- ChatGPT Pro:无穷制访问
- ChatGPT Enterprise和ChatGPT Edu:将在一周内可用
- API:向3-5级开辟者开放(初期暂不支持图像分析功能)
- 输入1.10美元/百万token、输出4.40美元/百万token
感谢DeepSeek,o3-mini的代价这次算是彻底给打下来了——比OpenAI o1-mini自制63%,比满血版o1自制93%。(但还是GPT-4o mini的7倍左右)

OpenAI表现,o3-mini的发布是在寻求高效能智能技能门路上的又一紧张里程碑。
通过优化科学(Science)、技能(Technology)、工程(Engineering)和数学(Mathematics)范畴的推理本领,同时保持较低的本钱,让高质量AI技能变得更加夷易近人。
值得一提的是,在ChatGPT中,o3-mini接纳的是「中等推理强度」,在速率和正确性之间取得均衡。全部付费用户还可以在模子选择器中选择o3-mini-high——相应时间略长但智能程度更高的版本。

现在,由于太偏激爆,ChatGPT的项目和自界说GPTs功能都已经被挤崩了。

集成搜刮,两种版本可选
客岁12月,。相较于上一代o1模子,o3在ARC-AGI等多项基准测试中革新SOTA。
与o1-mini一样,o3-mini是最具性价比的推理模子,可谓是突破性能界限的「小巨人」。
在STEM范畴,尤其是科学、数学和编程等方面,o3-mini性能体现杰出逾越o1,并继续了上一代低本钱和低耽误的长处。
对于开辟者来说,o3-mini简直就是一份「大礼包」,它初次在小型推理模子中支持:包罗函数调用、布局化输出和开辟者消息、流式传输功能。
开辟者可以根据需求选择低、中、高三种推理强度,让o3-mini在处置惩罚复杂题目时举行「深度思索」,机动均衡速率和正确性。
遗憾地是,o3-mini暂不支持视觉功能。
如前所述,从本日起,o3-mini将通过Chat Completions API,Assistants API和Batch API向3-5级指定开辟者开放。
同时,o3-mini还整合了搜刮功能,可以或许提供带有相干网络泉源链接最新相应。
一起来看看这款「小而美」的o3-mini有什么过人之处。
快速、强盛、专为STEM范畴推理优化
与其前身OpenAI o1雷同,OpenAI o3-mini专门针对STEM推理举行了优化。
接纳了中等推理强度的o3-mini,在数学、编程和科学范畴的体现与o1平分秋色,且相应速率更快。
陈诉地点:https://cdn.openai.com/o3-mini-system-card.pdf
专家测试评估表现,o3-mini相比o1-mini可以或许天生更正确、更清楚的答案,推理本领更强。
在测试中,o3-mini的相应效果得到了56%的偏好度,在处置惩罚复杂实际题目时的庞大错误率更是低落了39%。
在中等推理强度设置下,o3-mini在最具挑衅性的推理和智能评估项目(包罗AIME和GPQA)中,均到达了与o1相称的程度。
数学比赛(AIME 2024)
在低推理强度下,o3-mini到达了与o1-mini相称的程度;在中等推理强度下,其体现可与o1媲美;而在高推理强度下,o3-mini的体现更是逾越了o1-mini和o1。

博士级科学题目(GPQA Diamond)

研究级数学(FrontierMath)
在高推理强度模式下,o3-mini在FrontierMath中的体现优于前代产物。当共同Python工具利用时,高推理强度的o3-mini可以或许一次性办理凌驾32%的测试标题,此中包罗28%以上的T3级题目。

编程比赛(Codeforces)
随着推理强度的提拔,OpenAI o3-mini的Elo得分不停进步,各层级体现均优于o1-mini。在中等推理强度下,其体现已能与o1相媲美。

软件工程(SWE-bench Verified)
o3-mini在高推理强度模式下,利用开源Agentless框架能到达39%的乐成率,利用内部工具框架则可到达61%的乐成率。

LiveBench编码

人类偏好评估
外部专家评测效果表现,o3-mini较o1-mini体现出更强的推理本领,可以或许天生更正确、更清楚的答案,尤其是在STEM范畴中。在对比测试中,o3-mini得到了56%的用户偏好度,且在处置惩罚复杂实际题目时的庞大错误率低落了39%。

在技能陈诉中,o3-mini编程性能逾越了GPT-4o和o1-preview,与o1平分秋色。

模子的速率与性能
o3-mini在保持与o1相称智能程度的同时,实现了更快的运行速率和更高的盘算服从。
除前文提到的STEM评估外,在中等推理强度下,o3-mini在其他数学本领和究竟正确性测试中均取得了明显上风。
对比测试(A/B Testing)效果表现,o3-mini的均匀相应时间为7.7秒,较o1-mini的10.16秒提拔了24%。
o1-mini和o3-mini(medium)的耽误对比

安全评估
OpenAI在练习o3-mini确保其安全相应,接纳的关键技能之一是审慎对齐(deliberative alignment)。
这项技能使模子可以或许在相应用户提示词前,对人工订定的安全规范举行全面推理。
与o1相似,o3-mini在高难度安全性测试和越狱评估中,显着优于GPT-4o。
在正式摆设前,研究职员接纳与o1雷同的预备方法,联合外部红队测试和安全性评估,对o3-mini的安全风险举行了全面评估。
克制内容评估

越狱评估

OpenAI急了
客岁年底放出o3和o3-mini的预览时,CEO奥特曼就曾表现,o3-mini将会在1月份发布。
随后,奥特曼又在1月17日预报称,o3-mini会在几周内发布。

如今,o3-mini果然如约而至(卡在ddl末了一天),但表面的天下已经是天差地别。
面临正在快速崛起的DeepSeek-R1,o3-mini存在着一个关键题目——「不开源」。
这也就意味着,它无法离线利用、无法下载代码,也无法以雷同的水平举行自界说。对于许多应用过来说,它的吸引力相对于R1显着大打扣头。
在上下文窗口方面,DeepSeek-R1约为128K/130K token,而o3-mini略胜一筹到达了200K token。此中,每个输出最多100K token,跟满血版o1雷同。
在代价方面,相比于输入/输出token分别为0.14/0.55美元的DeepSeek-R1,o3-mini依然贵出了天涯。
但作为一款美国模子,o3-mini在身份上无疑占尽了利益:应该会是西欧许多企业的首选。
奥特曼亲身率队
这一次,最强最新的o3-mini模子练习,奥特曼本尊了局亲身率队。研究项目主管分别是Carpus Chang和Kristen Ying。

接下来,假如说OpenAI还藏在什么杀手锏,那就是满血版的o3了。根据12月时的说法,它将在「今后不久」发布。
参考资料:
https://openai.com/index/openai-o3-mini/
https://openai.com/index/o3-mini-system-card/

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

使用道具 举报

全部评论 0

热文

所属版块

您需要登录后才可以回帖 立即登录
说说你的想法......
0
0
0
返回顶部