奥特曼率队深夜血战DeepSeek，o3-mini急上线！代价骨折免费用，ChatGPT被挤 ...

登录

新智元报道

编辑：编辑部 HYZ
【新智元导读】眼看DeepSeek风头尽显，被逼急的OpenAI果然告急发布了o3-mni。不但免费用户都能用，每百万输入和输出token代价更是疯狂跳水打骨折价！
o3-mini，真的来了。
刚刚，OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。

诚如奥特曼所言，免费用户直接打开「Reason」即可体验，Plus用户天天会有更多用量，详细来说：
- ChatGPT免费版：初次体验推理模子
- ChatGPT Plus和团队版：天天150次对话限定
- ChatGPT Pro：无穷制访问
- ChatGPT Enterprise和ChatGPT Edu：将在一周内可用
- API：向3-5级开辟者开放（初期暂不支持图像分析功能）
- 输入1.10美元/百万token、输出4.40美元/百万token
感谢DeepSeek，o3-mini的代价这次算是彻底给打下来了——比OpenAI o1-mini自制63%，比满血版o1自制93%。（但还是GPT-4o mini的7倍左右）

OpenAI表现，o3-mini的发布是在寻求高效能智能技能门路上的又一紧张里程碑。
通过优化科学（Science）、技能（Technology）、工程（Engineering）和数学（Mathematics）范畴的推理本领，同时保持较低的本钱，让高质量AI技能变得更加夷易近人。
值得一提的是，在ChatGPT中，o3-mini接纳的是「中等推理强度」，在速率和正确性之间取得均衡。全部付费用户还可以在模子选择器中选择o3-mini-high——相应时间略长但智能程度更高的版本。

现在，由于太偏激爆，ChatGPT的项目和自界说GPTs功能都已经被挤崩了。

集成搜刮，两种版本可选
客岁12月，。相较于上一代o1模子，o3在ARC-AGI等多项基准测试中革新SOTA。
与o1-mini一样，o3-mini是最具性价比的推理模子，可谓是突破性能界限的「小巨人」。
在STEM范畴，尤其是科学、数学和编程等方面，o3-mini性能体现杰出逾越o1，并继续了上一代低本钱和低耽误的长处。
对于开辟者来说，o3-mini简直就是一份「大礼包」，它初次在小型推理模子中支持：包罗函数调用、布局化输出和开辟者消息、流式传输功能。
开辟者可以根据需求选择低、中、高三种推理强度，让o3-mini在处置惩罚复杂题目时举行「深度思索」，机动均衡速率和正确性。
遗憾地是，o3-mini暂不支持视觉功能。
如前所述，从本日起，o3-mini将通过Chat Completions API，Assistants API和Batch API向3-5级指定开辟者开放。
同时，o3-mini还整合了搜刮功能，可以或许提供带有相干网络泉源链接最新相应。
一起来看看这款「小而美」的o3-mini有什么过人之处。
快速、强盛、专为STEM范畴推理优化
与其前身OpenAI o1雷同，OpenAI o3-mini专门针对STEM推理举行了优化。
接纳了中等推理强度的o3-mini，在数学、编程和科学范畴的体现与o1平分秋色，且相应速率更快。
陈诉地点：https://cdn.openai.com/o3-mini-system-card.pdf
专家测试评估表现，o3-mini相比o1-mini可以或许天生更正确、更清楚的答案，推理本领更强。
在测试中，o3-mini的相应效果得到了56%的偏好度，在处置惩罚复杂实际题目时的庞大错误率更是低落了39%。
在中等推理强度设置下，o3-mini在最具挑衅性的推理和智能评估项目（包罗AIME和GPQA）中，均到达了与o1相称的程度。
数学比赛（AIME 2024）
在低推理强度下，o3-mini到达了与o1-mini相称的程度；在中等推理强度下，其体现可与o1媲美；而在高推理强度下，o3-mini的体现更是逾越了o1-mini和o1。

博士级科学题目（GPQA Diamond）

研究级数学（FrontierMath）
在高推理强度模式下，o3-mini在FrontierMath中的体现优于前代产物。当共同Python工具利用时，高推理强度的o3-mini可以或许一次性办理凌驾32%的测试标题，此中包罗28%以上的T3级题目。

编程比赛（Codeforces）
随着推理强度的提拔，OpenAI o3-mini的Elo得分不停进步，各层级体现均优于o1-mini。在中等推理强度下，其体现已能与o1相媲美。

软件工程（SWE-bench Verified）
o3-mini在高推理强度模式下，利用开源Agentless框架能到达39%的乐成率，利用内部工具框架则可到达61%的乐成率。

LiveBench编码

人类偏好评估
外部专家评测效果表现，o3-mini较o1-mini体现出更强的推理本领，可以或许天生更正确、更清楚的答案，尤其是在STEM范畴中。在对比测试中，o3-mini得到了56%的用户偏好度，且在处置惩罚复杂实际题目时的庞大错误率低落了39%。

在技能陈诉中，o3-mini编程性能逾越了GPT-4o和o1-preview，与o1平分秋色。

模子的速率与性能
o3-mini在保持与o1相称智能程度的同时，实现了更快的运行速率和更高的盘算服从。
除前文提到的STEM评估外，在中等推理强度下，o3-mini在其他数学本领和究竟正确性测试中均取得了明显上风。
对比测试（A/B Testing）效果表现，o3-mini的均匀相应时间为7.7秒，较o1-mini的10.16秒提拔了24%。
o1-mini和o3-mini（medium）的耽误对比

安全评估
OpenAI在练习o3-mini确保其安全相应，接纳的关键技能之一是审慎对齐（deliberative alignment）。
这项技能使模子可以或许在相应用户提示词前，对人工订定的安全规范举行全面推理。
与o1相似，o3-mini在高难度安全性测试和越狱评估中，显着优于GPT-4o。
在正式摆设前，研究职员接纳与o1雷同的预备方法，联合外部红队测试和安全性评估，对o3-mini的安全风险举行了全面评估。
克制内容评估

越狱评估

OpenAI急了
客岁年底放出o3和o3-mini的预览时，CEO奥特曼就曾表现，o3-mini将会在1月份发布。
随后，奥特曼又在1月17日预报称，o3-mini会在几周内发布。

如今，o3-mini果然如约而至（卡在ddl末了一天），但表面的天下已经是天差地别。
面临正在快速崛起的DeepSeek-R1，o3-mini存在着一个关键题目——「不开源」。
这也就意味着，它无法离线利用、无法下载代码，也无法以雷同的水平举行自界说。对于许多应用过来说，它的吸引力相对于R1显着大打扣头。
在上下文窗口方面，DeepSeek-R1约为128K/130K token，而o3-mini略胜一筹到达了200K token。此中，每个输出最多100K token，跟满血版o1雷同。
在代价方面，相比于输入/输出token分别为0.14/0.55美元的DeepSeek-R1，o3-mini依然贵出了天涯。
但作为一款美国模子，o3-mini在身份上无疑占尽了利益：应该会是西欧许多企业的首选。
奥特曼亲身率队
这一次，最强最新的o3-mini模子练习，奥特曼本尊了局亲身率队。研究项目主管分别是Carpus Chang和Kristen Ying。

接下来，假如说OpenAI还藏在什么杀手锏，那就是满血版的o3了。根据12月时的说法，它将在「今后不久」发布。
参考资料：
https://openai.com/index/openai-o3-mini/
https://openai.com/index/o3-mini-system-card/

		自动登录	找回密码
密码			立即注册

奥特曼率队深夜血战DeepSeek，o3-mini急上线！代价骨折免费用，ChatGPT被挤 ...

本帖子中包含更多资源

全部评论 0

热文

摩根大通分析师警告称美股出现互联网泡沫式的市场集中前10大股4949热度

重庆：到2025年底建成逾2000座超充站4400热度

不再掉队？阿森纳英超强势8连胜，去年同期4胜2平2负4363热度

互联网大厂重回春晚4342热度

千亿元巨头业绩新高！洛阳钼业最新年度业绩再度刷新历史纪录 ..4291热度

中欧班列（西安）新年开门红4146热度

以优良文风提升宣传质量和水平4066热度

1月游戏版号发放再破百，机构：或推动产业繁荣发展，中概互联ETF4024热度

吴清再度提及量化交易监管如何理解最新提出的“趋利避害、突出4006热度

抖音做不好互联网医疗？3924热度

无人不网未成年人网络保护面临新风险3891热度

大厂员工再无巨额年终奖3886热度

再提“派兵” 马克龙敦促盟友力挺乌克兰3882热度

售33.98万元起新款腾势D9正式上市3867热度

被AI淘汰的专业，出现了3854热度

威马成“危马”：创始人行踪成谜车主困在“售后中” ...3791热度

国网数科控股公司荣获工信部工业互联网平台贯标认证 ...3735热度

AI进讲堂、AI数字底盘……一文感受数字新生活3733热度

售23.58万起新款冒险家及混动版上市3731热度

互联网平台提现限制重重，是合理规定还是霸王条款？ ...3675热度

所属版块