国内多数AI模子练习利用的中文数据占比已超60%

2025-8-31 10:59| 发布者: 我那里20公分| 查看: 873| 评论: 0

摘要: 　　中文数据在国内AI大模子的练习性能提拔方面发挥着紧张作用。国家数据局克日发布的数据表现，现在国内多数AI模子练习利用的中文数据占比已经凌驾60%，有的模子到达80%。中文高质量数据的开辟和供给本领连续加强， ...

　　中文数据在国内AI大模子的练习性能提拔方面发挥着紧张作用。国家数据局克日发布的数据表现，现在国内多数AI模子练习利用的中文数据占比已经凌驾60%，有的模子到达80%。中文高质量数据的开辟和供给本领连续加强，推动我国人工智能模子性能快速提拔。

　　国家数据局局长刘烈宏表现，我国人工智能的快速发展，与我国高度器重数据工作是密不可分的。作为人工智能发展的焦点要素之一，数据在推动“人工智能+”过程中发挥着关键作用，高质量数据集的建立至关紧张。

　　“在人工智能期间，Token，也就是各人通常所说的词元，是处置惩罚文本的最小数据单位，犹如互联网期间各人所说的‘流量’。”刘烈宏先容，2024年初，我国日均Token的斲丧量为1000亿，到本年6月尾，日均Token斲丧量已经突破30万亿，一年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。

　　据先容，停止本年6月尾，我国已经建立高质量数据集凌驾3.5万个，总体量凌驾了400PB（1PB可存储约5亿张2MB巨细的高清照片），400PB的总量相称于中国国家图书馆数字资源总量的140倍左右。

　　人工智能模子的练习也推动了数据生意业务需求的攀升。停止本年6月尾，各地高质量数据集累计生意业务额近40亿元，数据生意业务机构挂牌的高质量数据集总规模到达了246PB。

　　下一步，国家数据局将通过体系化结构连续推进高质量数据集建立，加速打造具身智能、低空经济、生物制造等重点范畴数据高地，推动全社会强化数据要素代价认同，加速推进数据要素代价共创，培养“为优质数据买单”的市场共识。（记者高亢）

路过

雷人

握手

鲜花

鸡蛋

收藏邀请

上一篇：AI大模子加快落地数据代价有望得到进一步被发掘下一篇：法律专家：AI仿冒奥运冠军“带货”，此类做法已违法 ...

		自动登录	找回密码
密码			立即注册

国内多数AI模子练习利用的中文数据占比已超60%

相关分类