当前位置：首页 - 学术研究 - 期刊论文 - 核心期刊

饶高琦、胡星雨、易子琳：语言资源视角下的大规模语言模型治理

时间：2023-08-28 来源：发布人：

摘要：

近半年来，柴语生（ChatGPT）等大规模生成式语言模型的应用，引发了全社会的关注和反思。对这种大模型，应以工具观加以正视，认可其技术发展带来的益处，同时尽量规避其风险。对它们的治理，应减少对技术本身的干预，将目标定位于大模型赖以研发的语言资源和投放之后的使用。对大模型研发中的语言资源治理，应着力打破中文数据孤岛：发展以联邦学习为代表的分布式模型构建技术，建立国家知识数据开放机制，尽快健全开放、高效的语言数据交换市场；提倡世界知识中文表达，助推中文大模型研发：尽快实现中文精华知识资源面向网络开放，完善中文概念、术语资源，做大、做全领域中文资源。对大模型使用领域的治理，则因大模型本身也是一种重要的语言资源，故应强调其基础资源地位，从标准化、评测和伦理规制的角度进行。

关键词：

柴语生;语言资源;大规模语言模型;语言治理;

基金资助：

教育部人文社科青年项目“清末以来汉语报刊词汇使用计量研究”（20YJC740050）；北京语言大学梧桐创新平台（21PT04）；

DOI：

10.19689/j.cnki.cn10-1361/h.20230402

专辑：

哲学与人文科学

专题：

中国语言文字

分类号：

H002

上一篇：吴应辉：新时代新征程国际中文教育新使命新行动思考

下一篇：梁宇、李诺恩：中文数字学习资源使用意愿及其影响因素研究——基于TAM扩展模型

地址：北京市海淀区学院路15号北京语言大学新综合楼11层A座邮编：100083 电话：010-82303416