国家安全部本日(5日)发布安全提示文章,人工智能的练习数据存在良莠不齐的题目,此中不乏虚伪信息、假造内容和私见性观点,造成数据源污染,给人工智能安全带来新的挑衅。 ![]() 数据是人工智能的底子 人工智能的三大焦点要素是算法、算力和数据,此中数据是练习AI模子的底子要素,也是AI应用的焦点资源。 提供AI模子的质料。海量数据为AI模子提供了富足的练习素材,使其得以学习数据的内涵规律和模式,实现语义明白、智能决议和内容天生。同时,数据也驱动人工智能不停优化性能和精度,实现模子的迭代升级,以顺应新需求。 影响AI模子的性能。AI模子对数据的数目、质量及多样性要求极高。富足的数据量是充实练习大规模模子的条件;高正确性、完备性和同等性的数据能有用制止误导模子;覆盖多个范畴的多样化数据,能提拔模子应对现实复杂场景的本领。 促进AI模子的应用。数据资源的日益丰富,加快了“人工智能+”举措的落地,有力促进了人工智能与经济社会各范畴的深度融合。这不但培养和发展了新质生产力,更推动我国科技超过式发展、财产优化升级、生产力团体跃升。 ![]() 数据污染打击安全防线 高质量的数据可以或许明显提拔模子的正确性和可靠性,但数据一旦受到污染,大概导致模子决议失误乃至AI体系失效,存在肯定的安全隐患。 投放有害内容。通过窜改、假造和重复等“数据投毒”举动产生的污染数据,将干扰模子在练习阶段的参数调解,减弱模子性能、低落其正确性,乃至诱发有害输出。研究表现: 当练习数据会合仅有0.01%的虚伪文本时,模子输出的有害内容会增长11.2%; 纵然是0.001%的虚伪文本,其有害输出也会相应上升7.2%。 造成递归污染。受到数据污染的人工智能天生的虚伪内容,大概成为后续模子练习的数据源,形成具有连续性的“污染遗留效应”。当前,互联网AI天生内容在数目上已远超人类生产的真实内容,大量低质量及非客观数据充斥此中,导致AI练习数据会合的错误信息逐代累积,终极扭曲模子自己的认知本领。 引发实际风险。数据污染还大概引发一系列实际风险,尤其在金融市场、公共安全和医疗康健等范畴。 在金融范畴,非法分子使用AI炮制虚伪信息,造成数据污染,大概引发股价非常颠簸,构成新型市场利用风险; 在公共安全范畴,数据污染轻易扰动公众认知、误导社会舆论,诱发社会恐慌感情; 在医疗康健范畴,数据污染大概致使模子天生错误诊疗发起,不但危及患者生命安全,也加剧伪科学的流传。 ![]() 筑牢人工智能数据底座 增强源头羁系,防范污染天生。以《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息掩护法》等法律法规为依据,创建AI数据分类分级掩护制度,从根本上防范污染数据的产生,助力有用防范AI数据安全威胁。 强化风险评估,保障数据流畅。增强对人工智能数据安全风险的团体评估,确保数据在收罗、存储、传输、利用、互换和备份等全生命周期环节安全。同步加速构建人工智能安全风险分类管理体系,不停进步数据安全综合保障本领。 末了洗濯修复,构建管理框架。定期依据法规尺度洗濯修复受污数据。依据相干法律法规及行业尺度,制定命据洗濯的详细规则。渐渐构建模块化、可监测、可扩展的数据管理框架,实现连续管理与质量把控。 |