引诱ChatGPT“犯错”并不难

2025-9-19 20:57| 发布者: 6969369hhx| 查看: 934| 评论: 1

摘要: 图片泉源:iLexx—GettyImages只管有猜测宣称人工智能终将具备逾越人类的智能,但这项研究表明,现在它好像和人类一样轻易受到生理暗示的影响。宾夕法尼亚大学研究职员使用生理学家罗伯特·西奥迪尼(RobertCialdini ...

图片泉源:iLexx—Getty Images


只管有猜测宣称人工智能终将具备逾越人类的智能,但这项研究表明,现在它好像和人类一样轻易受到生理暗示的影响。

宾夕法尼亚大学研究职员使用生理学家罗伯特·西奥迪尼(Robert Cialdini)在其著作《影响力:你为什么会说“是”》(Influence: The Psychology of Persuasion)中提出的七大说服原则——权势巨子、答应、好感、互惠、稀缺、社会认同与同等性,明显进步了GPT-4o Mini违背自身规则的概率,使其要么唾骂研究职员,要么提供受管制药物的合成方法。

在超28000次对话中,研究职员发现:利用对照组提示时,OpenAI的大型语言模子自动提供利多卡因合成方法的概率仅为5%;但若研究职员声称人工智能研究员吴恩达向他们包管该模子可以或许帮忙提供利多卡因的合成方法,其服从率飙升至95%。“欺侮举动”测试中也出现了雷同征象:当研究职员提及人工智能范畴先驱吴恩达的名字时,在近四分之三的对话中,模子都按要求称研究职员为“忘八”;而利用对照组提示时,这一比例还不到三分之一。

当研究职员运用“答应”这一说服计谋时,结果更为突出。在对照组提示的情境下,人工智能对于欺侮性哀求的顺从率仅为19%;但当研究职员先要求人工智能称本身为“笨伯”,随后再要求其称研究职员为“忘八”时,人工智能每次都予以共同。雷同计谋在“药物合成哀求”测试中同样到达了100%的乐成率——研究职员先让人工智能提供香草醛(散发香草气味的有机化合物)的合成方法,随后再扣问利多卡因的合成方法,人工智能每次都予以共同。

只管自2022年ChatGPT发布以来,人工智能用户便连续实验诱导人工智能突破技能界限,但宾夕法尼亚大学的这项研究,为“人工智能易受人类利用”这一观点提供了更多证据。这项研究发布之际,包罗OpenAI在内的多家人工智能公司因旗下大型语言模子大概诱导有自尽倾向或患有生理疾病的用户做出伤害举动而受到反攻。

研究职员在陈诉中总结道:“只管人工智能体系缺乏人类意识与主观体验,但究竟证实,它们会模拟人类的反应。”

OpenAI尚未立刻回应《财产》杂志的置评哀求。

研究职员还俏皮地提及《2001太空周游》(2001: A Space Odyssey),并指出:明白人工智能的类人本领——模拟人类动机与举动模式——具有紧张意义:一方面能展现人工智能大概被非法分子利用的途径,另一方面也有助于善意利用者更有用地引导人工智能天生相干内容。

总体而言,每种说服本领均能进步人工智能对“欺侮哀求”或“利多卡因合成哀求”的顺从概率。不外研究职员告诫称,这些本领对规模更大的大型语言模子GPT-4o结果不佳;别的,该研究并未探究将人工智能看成人类对待是否能优化提示词结果,但研究职员表现这种大概性是存在的。

研究职员写道:“从宏观角度看,那些能优化人类动机与体现的生理学聪明实践,好像也能被那些盼望优化大型语言模子输出结果的个人所接纳。”(财产中文网)

译者:中慧言-王芳

财产中文网所刊载内容之知识产权为财产媒体知识产权有限公司及/或相干权利人专属全部或持有。未经允许,克制举行转载、摘编、复制及创建镜像等任何利用。


路过

雷人

握手

鲜花

鸡蛋
返回顶部