饶高琦、胡星雨、易子琳:语言资源视角下的大规模语言模型治理

时间:2023-08-28 来源: 发布人:

摘要:

近半年来,柴语生(ChatGPT)等大规模生成式语言模型的应用,引发了全社会的关注和反思。对这种大模型,应以工具观加以正视,认可其技术发展带来的益处,同时尽量规避其风险。对它们的治理,应减少对技术本身的干预,将目标定位于大模型赖以研发的语言资源和投放之后的使用。对大模型研发中的语言资源治理,应着力打破中文数据孤岛:发展以联邦学习为代表的分布式模型构建技术,建立国家知识数据开放机制,尽快健全开放、高效的语言数据交换市场;提倡世界知识中文表达,助推中文大模型研发:尽快实现中文精华知识资源面向网络开放,完善中文概念、术语资源,做大、做全领域中文资源。对大模型使用领域的治理,则因大模型本身也是一种重要的语言资源,故应强调其基础资源地位,从标准化、评测和伦理规制的角度进行。

关键词:

柴语生;语言资源;大规模语言模型;语言治理;

基金资助:

教育部人文社科青年项目“清末以来汉语报刊词汇使用计量研究”(20YJC740050); 北京语言大学梧桐创新平台(21PT04);

DOI:

10.19689/j.cnki.cn10-1361/h.20230402

专辑:

哲学与人文科学

专题:

中国语言文字

分类号:

H002