Z站长网 › Z站长网 ›AI › 查看内容

鉴戒AI“数据投毒”！0.01%虚伪练习文本可致有害内容增11.2% ...

2025-8-18 12:22| 发布者: 梅目如画| 查看: 855| 评论: 0

摘要: 国家安全部本日（5日）发布安全提示文章，人工智能的练习数据存在良莠不齐的题目，此中不乏虚伪信息、假造内容和私见性观点，造成数据源污染，给人工智能安全带来新的挑衅。数据是人工智能的底子人工智能的三大焦点 ...

国家安全部本日（5日）发布安全提示文章，人工智能的练习数据存在良莠不齐的题目，此中不乏虚伪信息、假造内容和私见性观点，造成数据源污染，给人工智能安全带来新的挑衅。

数据是人工智能的底子

人工智能的三大焦点要素是算法、算力和数据，此中数据是练习AI模子的底子要素，也是AI应用的焦点资源。

提供AI模子的质料。海量数据为AI模子提供了富足的练习素材，使其得以学习数据的内涵规律和模式，实现语义明白、智能决议和内容天生。同时，数据也驱动人工智能不停优化性能和精度，实现模子的迭代升级，以顺应新需求。

影响AI模子的性能。AI模子对数据的数目、质量及多样性要求极高。富足的数据量是充实练习大规模模子的条件；高正确性、完备性和同等性的数据能有用制止误导模子；覆盖多个范畴的多样化数据，能提拔模子应对现实复杂场景的本领。

促进AI模子的应用。数据资源的日益丰富，加快了“人工智能+”举措的落地，有力促进了人工智能与经济社会各范畴的深度融合。这不但培养和发展了新质生产力，更推动我国科技超过式发展、财产优化升级、生产力团体跃升。

数据污染打击安全防线

高质量的数据可以或许明显提拔模子的正确性和可靠性，但数据一旦受到污染，大概导致模子决议失误乃至AI体系失效，存在肯定的安全隐患。

投放有害内容。通过窜改、假造和重复等“数据投毒”举动产生的污染数据，将干扰模子在练习阶段的参数调解，减弱模子性能、低落其正确性，乃至诱发有害输出。研究表现：

当练习数据会合仅有0.01%的虚伪文本时，模子输出的有害内容会增长11.2%；

纵然是0.001%的虚伪文本，其有害输出也会相应上升7.2%。

造成递归污染。受到数据污染的人工智能天生的虚伪内容，大概成为后续模子练习的数据源，形成具有连续性的“污染遗留效应”。当前，互联网AI天生内容在数目上已远超人类生产的真实内容，大量低质量及非客观数据充斥此中，导致AI练习数据会合的错误信息逐代累积，终极扭曲模子自己的认知本领。

引发实际风险。数据污染还大概引发一系列实际风险，尤其在金融市场、公共安全和医疗康健等范畴。

在金融范畴，非法分子使用AI炮制虚伪信息，造成数据污染，大概引发股价非常颠簸，构成新型市场利用风险；

在公共安全范畴，数据污染轻易扰动公众认知、误导社会舆论，诱发社会恐慌感情；

在医疗康健范畴，数据污染大概致使模子天生错误诊疗发起，不但危及患者生命安全，也加剧伪科学的流传。

筑牢人工智能数据底座

增强源头羁系，防范污染天生。以《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息掩护法》等法律法规为依据，创建AI数据分类分级掩护制度，从根本上防范污染数据的产生，助力有用防范AI数据安全威胁。

强化风险评估，保障数据流畅。增强对人工智能数据安全风险的团体评估，确保数据在收罗、存储、传输、利用、互换和备份等全生命周期环节安全。同步加速构建人工智能安全风险分类管理体系，不停进步数据安全综合保障本领。

末了洗濯修复，构建管理框架。定期依据法规尺度洗濯修复受污数据。依据相干法律法规及行业尺度，制定命据洗濯的详细规则。渐渐构建模块化、可监测、可扩展的数据管理框架，实现连续管理与质量把控。

上一篇：在中国，AI加快落地消耗端下一篇：人工智能AIETF（515070）开盘涨0.44%，重仓股中际旭创涨3.88%，新易盛涨2.4 ...

		自动登录	找回密码
密码			立即注册

相关分类