登录
/
注册
门户
资讯
论坛
网站赚不到钱?立刻加入参与变现
字体超市--好字体用得起,买得起!
共建未成年人"Z站长网"网络空间承诺书
Z站长网
站长工具
站长文章采集
提供网站文章自动采集
Alexa排名查询
根据 Alexa 排名统计数据估算网站 IP、PV 值.
百度权重查询
根据关键词指数与排名估算网站的百度流量
SEO综合查询
查询网站在各大搜索引擎上的SEO数据
友情链接查询
查询网站的友情链接数据及识别对方是否骗链
Whois信息查询
查询域名的详细whois信息及验证域名是否过期
网站备案查询
查询网站的ICP备案、网安备案及备案历史记录
ico图标制作
提供专业ico图标制作
站长素材
字体下载
分享PS字体、免费字体、商业字体库
简历模板
提供各类个人简历模板下载,包括中英文简历.
高清图片
提供高清图片下载,包括背景图片、欧美图片等
矢量素材
打造高精矢量素材下载,包括矢量花纹、图标等
PPT模板下载
提供各类PPT模板下载,包括企业、商务等模板
PSD素材
提供海量PSD素材
源码下载
源码上传
精品源码
源码平台
汇集各类源码
正版软件
各行业主流软件、功能完善
插件/模版
discuz\织梦\thinkphp等精品模版插件
源码下载
各种源码/软件/模版/插件免费下载
网站排名
行业排行榜
提供休息娱乐、购物、服务等行业网站的排名
地区排行榜
提供全国34个省级行政区域的网站排名
移动网站排行榜
提供中文网站排名
公司排行榜
根据各行业各地区公司市值、注册资金等排名情况。
关注我们
Z站长网-新浪微博
有时卖萌,有时天然呆,节操与【小站】同在
Z站长网-微信公众号
请微信搜公众号Z站长网,添加关注我们
Z站长网
Z站长网-百家号
专注报道互联网、创业和前沿资讯.
[登录/注册]
免费搭建"企业官网"私域
播放器收一切自然量
广告招租QQ:258638587
广告招租QQ:258638587
10000来路IP只需8元
专业SEO按天计费源码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
编程
电脑基础
Z站长网
Portal
Ai
BBS
资讯
专题
发布帖子
搜索
搜索
本版
文章
帖子
用户
道具
勋章
任务
设置
我的收藏
退出
返回列表
楊羊羊
2025-2-1 17:54:44 ·
问答
关注
奥特曼率队深夜血战DeepSeek,o3-mini急上线!代价骨折免费用,ChatGPT被挤 ...
[ 复制链接 ]
来自
版块
:
问答
351
0
新智元报道
编辑:编辑部 HYZ
【新智元导读】
眼看DeepSeek风头尽显,被逼急的OpenAI果然告急发布了o3-mni。不但免费用户都能用,每百万输入和输出token代价更是疯狂跳水打骨折价!
o3-mini,真的来了。
刚刚,OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。
诚如奥特曼所言,免费用户直接打开「Reason」即可体验,Plus用户天天会有更多用量,详细来说:
- ChatGPT免费版:初次体验推理模子
- ChatGPT Plus和团队版:天天150次对话限定
- ChatGPT Pro:无穷制访问
- ChatGPT Enterprise和ChatGPT Edu:将在一周内可用
- API:向3-5级开辟者开放(初期暂不支持图像分析功能)
- 输入1.10美元/百万token、输出4.40美元/百万token
感谢DeepSeek,o3-mini的代价这次算是彻底给打下来了——比OpenAI o1-mini自制63%,比满血版o1自制93%。(但还是GPT-4o mini的7倍左右)
OpenAI表现,o3-mini的发布是在寻求高效能智能技能门路上的又一紧张里程碑。
通过优化科学(Science)、技能(Technology)、工程(Engineering)和数学(Mathematics)范畴的推理本领,同时保持较低的本钱,让高质量AI技能变得更加夷易近人。
值得一提的是,在ChatGPT中,o3-mini接纳的是「中等推理强度」,在速率和正确性之间取得均衡。全部付费用户还可以在模子选择器中选择o3-mini-high——相应时间略长但智能程度更高的版本。
现在,由于太偏激爆,ChatGPT的项目和自界说GPTs功能都已经被挤崩了。
集成搜刮,两种版本可选
客岁12月,。相较于上一代o1模子,o3在ARC-AGI等多项基准测试中革新SOTA。
与o1-mini一样,o3-mini是最具性价比的推理模子,可谓是突破性能界限的「小巨人」。
在STEM范畴,尤其是科学、数学和编程等方面,o3-mini性能体现杰出逾越o1,并继续了上一代低本钱和低耽误的长处。
对于开辟者来说,o3-mini简直就是一份「大礼包」,它初次在小型推理模子中支持:包罗函数调用、布局化输出和开辟者消息、流式传输功能。
开辟者可以根据需求选择低、中、高三种推理强度,让o3-mini在处置惩罚复杂题目时举行「深度思索」,机动均衡速率和正确性。
遗憾地是,o3-mini暂不支持视觉功能。
如前所述,从本日起,o3-mini将通过Chat Completions API,Assistants API和Batch API向3-5级指定开辟者开放。
同时,o3-mini还整合了搜刮功能,可以或许提供带有相干网络泉源链接最新相应。
一起来看看这款「小而美」的o3-mini有什么过人之处。
快速、强盛、专为STEM范畴推理优化
与其前身OpenAI o1雷同,OpenAI o3-mini专门针对STEM推理举行了优化。
接纳了中等推理强度的o3-mini,在数学、编程和科学范畴的体现与o1平分秋色,且相应速率更快。
陈诉地点:https://cdn.openai.com/o3-mini-system-card.pdf
专家测试评估表现,o3-mini相比o1-mini可以或许天生更正确、更清楚的答案,推理本领更强。
在测试中,o3-mini的相应效果得到了56%的偏好度,在处置惩罚复杂实际题目时的庞大错误率更是低落了39%。
在中等推理强度设置下,o3-mini在最具挑衅性的推理和智能评估项目(包罗AIME和GPQA)中,均到达了与o1相称的程度。
数学比赛(AIME 2024)
在低推理强度下,o3-mini到达了与o1-mini相称的程度;
在中等推理强度下,其体现可与o1媲美;
而在高推理强度下,o3-mini的体现更是逾越了o1-mini和o1。
博士级科学题目(GPQA Diamond)
研究级数学(FrontierMath)
在高推理强度模式下,o3-mini在FrontierMath中的体现优于前代产物。
当共同Python工具利用时,高推理强度的o3-mini可以或许一次性办理凌驾32%的测试标题,此中包罗28%以上的T3级题目。
编程比赛(Codeforces)
随着推理强度的提拔,OpenAI o3-mini的Elo得分不停进步,各层级体现均优于o1-mini。
在中等推理强度下,其体现已能与o1相媲美。
软件工程(SWE-bench Verified)
o3-mini在高推理强度模式下,利用开源Agentless框架能到达39%的乐成率,利用内部工具框架则可到达61%的乐成率。
LiveBench编码
人类偏好评估
外部专家评测效果表现,o3-mini较o1-mini体现出更强的推理本领,可以或许天生更正确、更清楚的答案,尤其是在STEM范畴中。在对比测试中,o3-mini得到了56%的用户偏好度,且在处置惩罚复杂实际题目时的庞大错误率低落了39%。
在技能陈诉中,o3-mini编程性能逾越了GPT-4o和o1-preview,与o1平分秋色。
模子的速率与性能
o3-mini在保持与o1相称智能程度的同时,实现了更快的运行速率和更高的盘算服从。
除前文提到的STEM评估外,在中等推理强度下,o3-mini在其他数学本领和究竟正确性测试中均取得了明显上风。
对比测试(A/B Testing)效果表现,o3-mini的均匀相应时间为7.7秒,较o1-mini的10.16秒提拔了24%。
o1-mini和o3-mini(medium)的耽误对比
安全评估
OpenAI在练习o3-mini确保其安全相应,接纳的关键技能之一是审慎对齐(deliberative alignment)。
这项技能使模子可以或许在相应用户提示词前,对人工订定的安全规范举行全面推理。
与o1相似,o3-mini在高难度安全性测试和越狱评估中,显着优于GPT-4o。
在正式摆设前,研究职员接纳与o1雷同的预备方法,联合外部红队测试和安全性评估,对o3-mini的安全风险举行了全面评估。
克制内容评估
越狱评估
OpenAI急了
客岁年底放出o3和o3-mini的预览时,CEO奥特曼就曾表现,o3-mini将会在1月份发布。
随后,奥特曼又在1月17日预报称,o3-mini会在几周内发布。
如今,o3-mini果然如约而至(卡在ddl末了一天),但表面的天下已经是天差地别。
面临正在快速崛起的DeepSeek-R1,o3-mini存在着一个关键题目——「不开源」。
这也就意味着,它无法离线利用、无法下载代码,也无法以雷同的水平举行自界说。对于许多应用过来说,它的吸引力相对于R1显着大打扣头。
在上下文窗口方面,DeepSeek-R1约为128K/130K token,而o3-mini略胜一筹到达了200K token。此中,每个输出最多100K token,跟满血版o1雷同。
在代价方面,相比于输入/输出token分别为0.14/0.55美元的DeepSeek-R1,o3-mini依然贵出了天涯。
但作为一款
美国模子,o3-mini在身份上无疑占尽了利益:
应该会是西欧许多企业的首选。
奥特曼亲身率队
这一次,最强最新的o3-mini模子练习,奥特曼本尊了局亲身率队。研究项目主管分别是Carpus Chang和Kristen Ying。
接下来,假如说OpenAI还藏在什么杀手锏,那就是满血版的o3了。
根据12月时的说法,它将在「今后不久」发布。
参考资料:
https://openai.com/index/openai-o3-mini/
https://openai.com/index/o3-mini-system-card/
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
综合
最新
热度
发表评论
全部评论 0
期待你的评论哦~
楊羊羊
此人什么也没留下~
关注
文章
91
积分
295
都听说要收购玛莎拉蒂了,奇瑞策划20年还没上市?
阅读 1221
宜家宜商“双星”闪灼!睿蓝7财产版上新、睿蓝8环球表态 ...
阅读 1147
比亚迪涨2.32%,成交额52.68亿元,人气排名29位!后市是否有时机?附走势预 ...
阅读 1131
热文
3 天
7天
1
互联网大厂重回春晚
1872热度
2
1月游戏版号发放再破百,机构:或推动产业繁荣发展,中概互联ETF
1844热度
3
中欧班列(西安)新年开门红
1834热度
4
抖音做不好互联网医疗?
1833热度
5
不再掉队?阿森纳英超强势8连胜,去年同期4胜2平2负
1830热度
6
千亿元巨头 业绩新高!洛阳钼业最新年度业绩再度刷新历史纪录 ..
1828热度
7
重庆:到2025年底建成逾2000座超充站
1825热度
8
以优良文风提升宣传质量和水平
1822热度
9
吴清再度提及量化交易监管 如何理解最新提出的“趋利避害、突出
1814热度
10
无人不网 未成年人网络保护面临新风险
1791热度
1
大厂员工再无巨额年终奖
1763热度
2
摩根大通分析师警告称美股出现互联网泡沫式的市场集中 前10大股
1710热度
3
威马成“危马”:创始人行踪成谜 车主困在“售后中” ...
1693热度
4
被AI淘汰的专业,出现了
1689热度
5
售33.98万元起 新款腾势D9正式上市
1682热度
6
再提“派兵” 马克龙敦促盟友力挺乌克兰
1679热度
7
AI进讲堂、AI数字底盘……一文感受数字新生活
1677热度
8
国网数科控股公司荣获工信部工业互联网平台贯标认证 ...
1668热度
9
售23.58万起 新款冒险家及混动版上市
1661热度
10
互联网平台提现限制重重,是合理规定还是霸王条款? ...
1609热度
查看更多
发布新话题
所属版块
返回版块
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
立即登录
发送
本版积分规则
回帖后跳转到最后一页
说说你的想法......
0
0
0
返回顶部