中文数据在国内AI大模子的练习性能提拔方面发挥着紧张作用。国家数据局克日发布的数据表现,现在国内多数AI模子练习利用的中文数据占比已经凌驾60%,有的模子到达80%。中文高质量数据的开辟和供给本领连续加强,推动我国人工智能模子性能快速提拔。 国家数据局局长刘烈宏表现,我国人工智能的快速发展,与我国高度器重数据工作是密不可分的。作为人工智能发展的焦点要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建立至关紧张。 “在人工智能期间,Token,也就是各人通常所说的词元,是处置惩罚文本的最小数据单位,犹如互联网期间各人所说的‘流量’。”刘烈宏先容,2024年初,我国日均Token的斲丧量为1000亿,到本年6月尾,日均Token斲丧量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。 据先容,停止本年6月尾,我国已经建立高质量数据集凌驾3.5万个,总体量凌驾了400PB(1PB可存储约5亿张2MB巨细的高清照片),400PB的总量相称于中国国家图书馆数字资源总量的140倍左右。 人工智能模子的练习也推动了数据生意业务需求的攀升。停止本年6月尾,各地高质量数据集累计生意业务额近40亿元,数据生意业务机构挂牌的高质量数据集总规模到达了246PB。 下一步,国家数据局将通过体系化结构连续推进高质量数据集建立,加速打造具身智能、低空经济、生物制造等重点范畴数据高地,推动全社会强化数据要素代价认同,加速推进数据要素代价共创,培养“为优质数据买单”的市场共识。(记者高亢) |