接连陷裁人、“跑路”争议后,Manus联创发文深度复盘 ...

来自版块 问答
474
0

泉源:猎云网
距3月6日惊艳表态仅100余天,Manus接连陷入大规模裁人听说和“删博跑路”争议。
克日,Manus联创季逸超通过一偏技能博客,对公司发展举行了深度复盘,他在文中坦诚地总结了团队在构建Manus过程中积聚的履历教导,重要会合在7个方面:
1.不再只是练习模子,而是押注上下文。放弃“重新开始为开放信息提取和语义搜刮练习模子”,Manus将押注于上下文工程,“在几小时内而非几周内推出改进,并使产物与底层模子保持正交”。
2.KV-cache掷中率是生产阶段AI Agent最紧张的单一指标,它直接影响耽误和本钱。从上下文工程的角度来看,进步KV-缓存掷中率涉及几个关键实践:保持提示前缀稳固、使上下文仅追加、在必要时明白标志缓存断点。
3.除非绝对须要,制止在迭代过程中动态添加或移除工具。Manus利用掩藏 token logits的方法,让模子看不见不应调用的工具。
4.利用文件体系作为上下文。Manus让模子把恒久影象写入假造文件体系,按需读写,实现外部影象,规避信息丢失。
5.通过复述操控留意力。模子轻易中途忘记目的,Manus会不停用天然语言更新并重述todo.md 文件,把全局目的拉回留意力核心,防止使命跑偏。
6.保存错误的内容。Manus发现,“改善Agent举动最有用的方法之一出奇地简朴:将错误实验保存在上下文中。当模子看到失败的举措——以及由此产生的观察效果或堆栈跟踪——它会隐式地更新其内部信心。这会使其先验阔别雷同的举措,淘汰重复雷同错误的大概性”。
7.不要被少样本提示所困。语言模子会模拟上下文中的举动模式,办理方法是增长多样性,Manus选择在举措和观察中引入少量的布局化变革——差别的序列化模板、替换说话、次序或格式的微小噪声,这种受控的随机性有助于冲破模式并调解模子的留意力。
Manus此前曾在在业界大火,官方先容是环球首款通用AI智能体,产物发布后,其官网的访问量敏捷增长至万万级别,成为Deepseek之后,在国内另一个出圈的AI应用。
资料表现,Manus于3月6日破晓发布,是一个通用的AI署理,可以毗连头脑和举措,它不但会思索,还会提供效果。Manus善于工作和生存中的各种使命,在用户苏息时完成全部事变。产物官网表现,Manus在GAIA基准测试中取得SOTA的结果,该结果大幅凌驾OpenAI。
然而进入7月,Manus“题目不停”。
起首是7月8日,Manus被爆启动国内业务调解:其120名员工中,仅40余名焦点技能职员迁往新加坡总部,别的职员均被裁撤;与此同时,公司正式将环球总部迁至新加坡,并同步退出中国市场。针对上述听说,Manus回应:“基于公司自身谋划服从考量,昨们决定对部门业务团队举行调解。公司将继承专注焦点业务发展,提拔团体运营服从。”
随后在7月11日,Manus官方微博和小红书账号的内容清空。
以下为Manus团结首创人季逸超博客全文:AI Agent 的上下文工程:从构建 Manus 中学到的履历
在 Manus 项目标最初阶段,我和我的团队面对一个关键决定:昨们应该利用开源底子模子练习一个端到端的 Agent,照旧基于前沿模子的上下文学习本领构建一个 Agent?
在我从事 NLP 的第一个十年,昨们没有这种选择的奢侈。在迢遥的 BERT 期间(是的,已经已往七年了),模子必须先举行微调——并评估——才气转移到新使命。这个过程通常每次迭代必要数周时间,纵然与本日的 LLM 相比,这些模子都很小。对于快速发展的应用,特殊是在产物市场契合度(PMF)之前,这种迟钝的反馈循环是一个致命题目。
这是我上一个创业公司的凄惨教导,我重新开始为开放信息提取和语义搜刮练习模子。然后 GPT-3 和 Flan-T5 出现了,我的内部模子一夜之间变得无关紧急。讽刺的是,这些雷同的模子标记着上下文学习的开始——以及一条全新的进步门路。
这个来之不易的教导使选择变得明白:Manus 将押注于上下文工程。这使昨们可以或许在几小时内而非几周内推出改进,并使昨们的产物与底层模子保持正交:假如模子进步是上涨的潮流,昨们盼望 Manus 成为那条船,而不是固定在海床上的柱子。
然而,上下文工程证实并非那么刀切斧砍。它是一门实行科学——昨们已经重修了昨们的 Agent 框架四次,每次都是在发现了更好的塑造上下文的方式之后。昨们密切地将这种手动架构搜刮、提示调解和履历推测的过程称为「随机研究生降落法」。它不敷优雅,但很有用。
这篇文章分享了昨们通过本身的「SGD」所到达的局部最优解。假如你正在构建本身的 AI Agent,我盼望这些原则能资助你更快地收敛。
围绕 KV-Cache 举行计划
假如我必须选择仅一个指标,我以为 KV-cache 掷中率是生产阶段 AI Agent最紧张的单一指标。它直接影响耽误和本钱。为了明白缘故原由,让昨们看看典范 Agent 怎样运作:
在吸收用户输入后,Agent 通过一系列工具利用来完成使命。在每次迭代中,模子根据当前上下文从预界说的动作空间中选择一个动作。然后该动作在情况(比方,Manus 的假造机沙盒)中实行以产生观察效果。动作和观察效果被附加到上下文中,形成下一次迭代的输入。这个循环连续直到使命完成。
正如你可以想像,上下文随著每一步而增长,而输出——通常是布局化的函数调用——保持相对简短。这使得Agent 步伐中的预添补息争码比例与谈天呆板人相比高度倾斜。比方,在 Manus 中,均匀输入与输出 token 比率约为 100:1。
荣幸的是,具有雷同前缀的上下文可以使用 KV-cache,这大大淘汰了首个 token 的时间 (TTFT) 和推理本钱——无论你利用的是自托管模子照旧调用推理 API。昨们评论的不是小额节流:以 Claude Sonnet 为例,缓存的输入 token 本钱为 0.30 美元/MTok(每百万 token),而未缓存的本钱为 3 美元/MTok——相差 10 倍。
从上下文工程的角度来看,进步 KV-缓存掷中率涉及几个关键实践:
1.保持提示前缀稳固。 由于 LLM 的自回归特性,纵然单个标志的差别也会使该标志之后的缓存失效。一个常见的错误是在体系提示的开头包罗时间戳——尤其是准确到秒的时间戳。没错,它可以让模子告诉你当前时间,但它也会低落你的缓存掷中率。
2.使你的上下文仅追加。 制止修改先前的操纵或观察。确保你的序列化是确定性的。很多程式语言和库在序列化 JSON 对象时不包管稳固的键排序,这大概会静静粉碎缓存。
3.在必要时明白标志缓存断点。 某些模子提供商或推理框架不支持主动增量前缀缓存,而是必要在上下文中手动插入缓存断点。在分配这些断点时,要思量潜伏的缓存逾期,并至少确保断点包罗体系提示的末端。
别的,假如你正在利用 vLLM 等框架自托管模子,请确保启用前缀/提示缓存,而且你正在利用会话 ID 等技能来同等地路由分布式工作节点间的哀求。
掩藏,而非移除
随著你的 Agent 得到更多本领,其举措空间天然变得更加复杂——简朴来说,工具数目爆炸性增长。近来盛行的 MCP 只会推波助澜。假如你答应用户设置工具,信赖我:总会有人不可制止地将数百个秘密工具插入到你经心筹谋的举措空间中。效果,模子更大概选择错误的举措或接纳低效的路径。简而言之,你的全副武装的 Agent 变得更笨了。
一个天然的反应是计划一个动态举措空间——大概利用雷同 RAG 的东西按需加载工具。昨们在 Manus 中也实验过这种方法。但昨们的实行表明一个明白的规则:除非绝对须要,制止在迭代过程中动态添加或移除工具。这重要有两个缘故原由:
1. 在大多数 LLMs 中,工具界说在序列化后位于上下文的前部,通常在体系提示之前或之后。因此,任何更改都将使全部后续操纵和观察的 KV-缓存失效。
2. 当先前的操纵和观察仍旧引用在当前上下文中不再界说的工具时,模子会变得狐疑。没有束缚解码,这通常会导致模式违规或幻觉举动。
为了办理这个题目,同时仍旧改举行动选择,Manus 利用上下文感知的状态机来管理工具可用性。它不是移除工具,而是掩藏 token logits,在解码过程中防止(或逼迫)基于当前上下文选择某些举措。
在实践中,大多数模子提供者和推理框架支持某种情势的回应前缀预添补,这答应你在不修改工具界说的环境下限定动作空间。通常有三种函数调用模式(昨们将利用来自 NousResearch 的 Hermes 格式作为例子):
•主动 – 模子可以选择调用函数或不调用。通过仅预添补复兴前缀来实现:<|im_start|>assistant
•必须 – 模子必须调用函数,但选择不受限定。通过预添补到工具调用标志来实现:<|im_start|>assistant
•指定 – 模子必须从特定子会合调用函数。通过预添补到函数名称的开头来实现:<|im_start|>assistant{「name」: &quot;browser_
利用这个,昨们通过直接掩藏 token 的 logits 来限定动作选择。比方,当用户提供新输入时,Manus 必须立刻复兴而不是接纳动作。昨们还特意计划了具有同等前缀的动作名称——比方,全部与欣赏器相干的工具都以 browser_开头,下令行工具则以 shell_开头。这使昨们可以或许轻松地逼迫 Agent 在给定状态下只从某个特定工具组中举行选择,而无需利用有状态的 logits 处置惩罚器。
这些计划有助于确保 ManusAgent 循环保持稳固——纵然在模子驱动的架构下。
利用文件体系作为上下文
当代前沿大语言模子如今提供 128K 个 token 或更多的上下文窗口。但在真实天下的 Agent 场景中,这通常不敷,偶然乃至是一种负担。有三个常见的痛点:
1. 观察大概非常巨大,尤其是当 Agent 与网页或 PDF 等非布局化数据互动时。很轻易凌驾上下文限定。
2. 模子性能每每会降落,凌驾肯定的上下文长度后,纵然技能上增援该窗口巨细。
3. 长输入本钱高昂,纵然利用前缀缓存。你仍必要为传输和预添补每个标志付费。
为了办理这个题目,很多 Agent 体系实现了上下文截断或压缩计谋。但过分激进的压缩不可制止地导致信息丢失。这个题目是根天性的:Agent 本质上必须基于全部先前状态猜测下一个动作——而你无法可靠地猜测哪个观察大概在十步之后变得至关紧张。从逻辑角度看,任何不可逆的压缩都带有风险。
这就是为什么昨们在 Manus 中将文件体系视为终极上下文:巨细不受限定,本质上长期存在,而且可由 Agent 自身直接操纵。模子学会按需写入和读取文件——不但将文件体系用作储存,还用作布局化的外部影象。
昨们的压缩计谋始终计划为可规复的。比方,只要保存 URL,网页的内容就可以从上下文中删除,假如沙盒中仍旧有文件路径,则可以省略文件的内容。这使 Manus 可以或许收缩上下文长度而不会永世丢失信息。
在开辟这个功能时,我发现本身在想像状态空间模子 (SSM)要在 Agent 情况中有用运作必要什么条件。与 Transformers 差别,SSMs 缺乏完备的留意力机制,而且在处置惩罚长间隔的向后依靠关系时体现不佳。但假如它们可以或许把握基于文件的影象——将恒久状态外部化而不是保持在上下文中——那么它们的速率和服从大概会开启一种新型Agent。基于 Agent 的 SSMs 大概是神经图灵机的真正继续者。
通过复述操控留意力
假如你利用过 Manus,你大概留意到一个风趣的征象:在处置惩罚复杂使命时,它倾向于创建一个 todo.md 文件——并在使命举行过程中渐渐更新它,勾选已完成的项目。
这不但仅是可爱的举动——这是一种操控留意力的刻意机制。
Manus 中的典范使命均匀必要约莫 50 次工具调用。这是一个很长的循环——由于 Manus 依靠 LLM 举行决议,它很轻易偏离主题或忘记早期目的,尤其是在长上下文或复杂使命中。
通过不停重写待服务项列表,Manus 将其目的重述到上下文的末端。这将全局筹划推入模子的近期留意力范围,制止了「迷失在中心」的题目,并淘汰了目的错位。现实上,它正在利用天然语言来使本身的核心方向使命目的——而无需特别的架构更改。
保存错误的内容
Agent 会犯错。这不是一个错误—这是实际。语言模子会产生幻觉,情况会返回错误,外部工具会出现非常,而不测的边沿环境随时都会出现。在多步调使命中,失败不是破例;它是循环的一部门。
然而,一个常见的激动是隐蔽这些错误:清算追踪记载,重试动作,或重置模子的状态,并将其留给神奇的「温度」。这感觉更安全,更受控制。但这是有代价的:抹去失败会移除证据。而没有证据,模子就无法顺应。
在昨们的履历中,改善 Agent 举动最有用的方法之一出奇地简朴:将错误实验保存在上下文中。当模子看到失败的举措——以及由此产生的观察效果或堆栈跟踪——它会隐式地更新其内部信心。这会使其先验阔别雷同的举措,淘汰重复雷同错误的大概性。
究竟上,昨们信赖错误规复是真正 Agent 举动的最清楚指标之一。然而,在大多数学术工作和公开基准测试中,这一点仍旧代表性不敷,这些测试通常关注抱负条件下的使命乐成。
不要被少样本提示所困
少样本提示是进步 LLM 输出的常见技能。但在 Agent 体系中,它大概以玄妙的方式拔苗助长。
语言模子是良好的模拟者;它们模拟上下文中的举动模式。假如你的上下文布满了雷同的已往举措-观察对,模子将倾向于遵照该模式,纵然它不再是最优的。
这在涉及重复决议或举措的使命中大概很伤害。比方,当利用 Manus 资助检察 20 份简历时,Agent 经常会陷入一种节奏——仅仅由于这是它在上下文中看到的内容而重复雷同的举措。这导致偏移、过分泛化,或偶然出现幻觉。
办理方法是增长多样性。Manus 在举措和观察中引入少量的布局化变革——差别的序列化模板、替换说话、次序或格式的微小噪声。这种受控的随机性有助于冲破模式并调解模子的留意力。
换句话说,不要让本身陷入少量样本的窠臼。你的上下文越同一,你的 Agent 就越脆弱。
结论
上下文工程仍旧是一门新兴科学——但对于 Agent 体系来说,它已经是必不可少的。模子大概变得更强盛、更快速、更自制,但再多的原始本领也无法代替对影象、情况和反馈的需求。你怎样塑造上下文终极界说了你的 Agent 的举动方式:它运行的速率、规复的结果以及扩展的水平。
在 Manus,昨们通过反复重写、死胡同和跨数百万用户的真实天下测试学到了这些教导。昨们在这里分享的内容并非广泛真理——但这些是对昨们有用的模式。假如它们能资助你制止哪怕一次痛楚的迭代,那么这篇文章就到达了它的目标。
Agent 化的将来将取决于一次次对上下文的精雕细琢。好好计划它们吧。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

使用道具 举报

全部评论 0

热文

所属版块

您需要登录后才可以回帖 立即登录
说说你的想法......
0
0
0
返回顶部