一文读懂ChatGPT Agent:没逾越Manus的本领范畴,但看到端到端的曙光 ...

2025-7-29 15:27| 发布者: 潘先生、| 查看: 801| 评论: 4

摘要: 文|晓静编辑|萌萌发布会回放:OpenAI推出ChatGPT智能体,可控制整个盘算机实行使命Agent是本年AI圈最大的共识,OpenAI天然也不能落后。北京时间2025年7月18日破晓1点,SamAltman和四位OpenAI的研究员在直播中正式 ...

文|晓静

编辑|萌萌

发布会回放:OpenAI推出ChatGPT智能体,可控制整个盘算机实行使命

Agent是本年AI圈最大的共识,OpenAI天然也不能落后。

北京时间2025年7月18日破晓1点,Sam Altman 和四位OpenAI 的研究员在直播中正式发布了ChatGPT Agent——一款通用型 AI Agent。

前有Manus、Lovart和Flowith,ChatGPT Agent 所出现的功能场景并不算特殊惊艳,但它发布的意义,要逾越其功能自己。

ChatGPT Agent的革命性在于其独特的技能路径:它可以自动从工具箱中选择署理技能,利用本身的盘算机完成使命,用户可以及时观察AI在假造情况中的工作过程。

这种交互界面虽与Manus等产物相似,但底层原理却有着本质差别。Manus调用多个底层模子,雷同于“外部缝合”,而ChatGPT Agent,是将Agent本领内化于模子,昨们已经看到了端到端通用Agent的雏形。

OpenAI先容,为了开辟ChatGPT Agent,他们将Operator和Deep Research团队归并为一个同一的团队,这个新团队由20至35人构成。

根据ChatGPT Agent的体系卡片表现,这是一个新的署理模子,与OpenAI o3同属一个系列,接纳了端到端的练习方法。它是为署理使命开辟的同一模子,而不是多个模子的工程化组合。

Agent联合了Deep research的多步研究和高质量陈诉天生本领、Operator通过长途可视化欣赏器情况实行使命的本领、具有有限网络访问权限的终端工具,以及通过毗连器访问外部数据源和应用步伐的本领。

在实行完复杂使命之后,也可以交付给用户一个可下载的PPT或文档。

对Manus而言,OpenAI的这一新办法无疑是巨大的打击,乃至从订价上,两者也差距不大:GPT的Plus套餐每月20美金即可利用Agent,而Manus的底子筹划是每月19美金。

划重点:

  • ChatGPT Agent:是可以或许实行复杂、多工具使命的同一AI Agent;

  • 它集成了对文本欣赏器、GUI 欣赏器、终端和图像天生工具的访问;

  • 它支持与用户举行交互式、多轮对话,答应打断和澄清;

  • 安全防护升级:增强对网页“恶意提示”攻击的防御,设置高风险使命主动拒绝,生物/化学风险也按最高级别安全堆栈处置惩罚;

  • 它在多个实际天下和基准使命中取得了最先辈的效果;

一、ChatGPT Agent概览:功能很像manus

ChatGPT Agent的焦点是一个同一的署理体系 (unified agentic system),整归并扩展了 OpenAI 早期研究项目 "Operator"(偏重于网站交互)和 "Deep Research"(偏重于信息综合)的本领。

这使得 ChatGPT Agent 可以或许在一个单一的对话流中,无缝地从推理思索切换到实行详细动作。

假造盘算机情况:ChatGPT Agent在一个为其特设的假造盘算机上实行全部使命。这个情况是沙盒化的,确保了操纵的安全性。它可以或许在该情况中生存使命的上下文,纵然用户中途打断或改变指令,也能从断点继承,而不会丢失进度。

智能工具箱:为了完成复杂工作流,Agent 配备了四种工具,并能根据使命需求主动选择最符合的工具:

  • 可视化欣赏器 (Visual Browser): 用于与图形用户界面举行交互,比方点击按钮、填写表单和欣赏为人类计划的网站。

  • 文本欣赏器 (Text-based Browser): 用于必要高效推理和处置惩罚大量文本的网络查询。

  • 终端 (Terminal): 答应 Agent 运行代码、下载和处置惩罚文件。

  • API 访问: 可以直接调用 API 来获取信息,比方通过毗连器访问 Google Drive、Gmail 和 GitHub 等应用的数据。

新模子驱动:ChatGPT Agent由一个专门为其开辟的新模子驱动。这个模子通过强化学习 (reinforcement learning) 的方法,在必要利用多种工具的复杂使命上举行了专门练习,从而学会了如安在差别工具之间流通切换并协同工作。

它有以下特性:

自主使命实行: 用户可以用天然语言下达指令,比方“分析我的日历,并根据近来的消息为我简报即将到来的客户集会”,Agent 可以或许自主规划并实行一系列操纵,如欣赏网站、筛选信息、运行代码分析,并终极天生可编辑的幻灯片或电子表格等结果。

协作与交互性: 它会在必要时自动扣问更多细节以完成目的。用户可以随时停止、重定向使命或完全接受欣赏器的控制权。

安全与权限控制: 安全性是其计划的焦点部门。在实行购买、提交表单、发送邮件或处置惩罚个人信息等具有现实影响的关键操纵前,Agent 会明白哀求用户允许。同时,它被克制实行如金融转账或提供法律发起等高风险使命。OpenAI 还内置了针对“提示注入”等恶意攻击的防护步伐。

二、多项基准测试跑分“破记录”

最难的 HLE 到达 41.6%(with tool), 高于刚刚发布的Grok4(with tool)41.0%。

在评估广域知识与专家级提问的 Humanity’s Last Exam 上,单次作答正确率达 41.6%;接纳并行八路推理并选取置信度最高答案后可提拔到 44.4%。

在极难的 FrontierMath 数学基准上,借助终端运行代码后正确率提拔至 27.4%。

在针对真实知识工作使命的内部评测中,ChatGPT 署理在约半数案例里已与人类持平或更佳;

在实际数据科学使命 DSBench 上,其分析与建模正确率分别到达 89.9% 与 85.5%,远超人类均匀程度。

它对电子表格的直接编辑本领也领先:在 SpreadsheetBench 中拿到 45.5%,凌驾 Copilot in Excel 的 20%。别的,它在 BrowseComp、WebArena 等欣赏评测里均革新了SOTA。

(图:评测方法:SpreadsheetBench的作者在Windows 情况下利用 Microsoft Excel 对电子表格举行评估。昨们则在 OSX 情况中利用 LibreOffice,这大概导致评分出现稍微差别。比方,作者陈诉 GPT‑4o 在团体 Hard 限定上的效果为 15.02%,而昨们得到 13.38%。昨们利用了完备的 912 道标题基准测试。)

根据ChatGPT Agent本身做的PPT,在做PPT的本领上和上网冲浪本领上,Agent的本领都相比纯粹的底子模子有较显着的提拔。但离人类还颇有间隔。

三、不是期货,本日可用

自本日起,Pro 用户可以立刻利用,Plus 与 Team 用户将在数日内连续开通;Enterprise 与 Education 版本将于数周后接入。

Pro 每月可用 400 条消息,其他付费用户每月额度为 40 条,可通过机动的按量计费追加。

现实利用非常简朴:在任何对话中切到「署理模式」,形貌目的,比方深度调研、制作演示或报销。屏幕左侧及时表现它的操纵流程;若必要登录,体系会切换到「接受模式」安全输入凭据。

用户还可以把完成的使命设为周期性实行,比方每周一主动天生指标陈诉。

四、奥特曼亲身提示风险:Agent很强盛,也很伤害

值得留意的是,奥特曼在发布会之后,立即发了一条长贴,提示利用ChatGPT Agent的风险。

在“夸大”过ChatGPT Agent处置惩罚复杂使命的强盛本领后,特殊谨慎地提示了产物的风险,并夸大:昨们尚不清晰详细会造成什么影响,但非法分子大概会试图“诱骗”用户的 AI 署理提供不应提供的私家信息并接纳不应接纳的举措,而这此中的方式昨们无法猜测。

模子大概会打仗用户的敏感数据,或遭遇网页中的恶意「提示注入」攻击。为此,他们相沿 Operator 期间的严酷控制,并新增多项防护:

  • 关键动作前必须得到用户明白授权;

  • 部门高风险使命(如发送邮件)启用「监视模式」要求用户全程监控;

  • 遇到银行转账等高风险指令会自动拒绝;

  • 用户可以一键扫除欣赏数据并注销全部会话,或在不需联网时禁用毗连器。

在生物与化学安全方面,OpenAI根据 Preparedness Framework 将该模子按高风险级别处置惩罚,上线了最全面的安全步伐,并与当局、学界及安全机构互助开展红队测试与威胁建模,同时启动毛病赏金筹划,以便尽早发现并修补潜伏题目。

五、ChatGPT Agent够遥遥领先吗?

ChatGPT Agent最大的创新在于初次在模子中直接集成了完备的假造机情况,用户可以及时观察AI的操纵过程,这是别的模子产物不具备的。

但是,各主流模子公司都在“Agent即模子,模子即Agent”的路上越走越远。好比,在coding agent本领上险些封神的Claude。

浩繁必要借用底层模子搭建的Agent产物,乃至脱离了Claude,就什么也不是。

刚刚上线的Kimi K2接纳开源的混淆专家模子架构,定位就为Agentic Intelligence,且代价仅有Claude 4的1/6左右。上线之后,token的接纳量排名连续飙升。

但从“模子即Agent”这条路来说,OpenAI并不能算是遥遥领先,仅仅能说迈出了一小步。

OpenAI在官方文档中也特殊谦善地表现:

必要留意的是,功能仍处早期:比方幻灯片生乐成能现为 beta,格式与雅观度仍待提拔,现阶段重要优化信息布局与元素可编辑性;将来昨们将继承练习新版本,以天生更风雅的文件。总的来说,随着连续迭代,ChatGPT 署理的服从、深度和多样性都会不停提拔,昨们也会渐渐调优用户监视的力度,在易用与安全之间取得更好均衡。

看着自家产物的演示,Sam Altman不禁又开始感叹:“我感受到了AGI。”

然而,在帖子下方照旧有长长的用户留言追问:“说好的GPT-5呢?”


路过

雷人

握手

鲜花

鸡蛋
返回顶部