“一字之差,谬之千里,智能校对需要机器更好地理解和生成文本,需要一定的逻辑思维和推理能力”,7月7日,在2023语言智能与内容生成高峰论坛上,中国人民大学信息资源管理学院副教授夏天,以《智能校对领域大语言模型的探索与实践》为题作主旨演讲。他在演讲中同与会者分享了“智能校对任务”“为何需要大语言模型”和“蜜度文修——面向校对任务的大语言模型”等方面内容。
世界人工智能大会是全球人工智能领域最具影响力的行业盛会之一。作为2023世界人工智能大会(WAIC)一项重要日程,蜜度主办了本届大会的语言智能与内容生成高峰论坛。
在人工智能快速发展和相关规范明确要求的大背景下,语言智能技术与校对工作相结合,可以充分凸显出其自然语言处理技术的优势。在主旨演讲中,夏天从实现思路入手,阐述大数据时代为何需要大语言模型以及大语言模型演进情况,并通过通用模型与专有模型对比解释了为何需要大语言模型等问题。
夏天首先同与会者交流了教育部最新颁布的《信息技术产品国家通用语言文字使用管理规定》。他说,文字规范至关重要,《规定》的第六条明确了数字和网络出版物使用国家通用语言文字,应当符合汉语拼音、普通话语音、规范汉字、现代汉语词形、标点符号和数用法等语言文字规范标准。需要使用汉语方言、繁体字、异体字的,应当符合《中华人民共和国国家通用语言文字法》相关规定;第七条明确了语言文字智能处理软件及其系统集成产品应当遵照汉语拼音、普通话语音、规范汉字、现代汉语词形、标点符号和数字用法等语言文字规范标准和现代汉语语法规律,持续优化语言文字处理功能,不断提升输出结果的规范化水平。
夏天从策略、词汇表、数据质量保证三个方面出发并结合具体案例,向与会者介绍了蜜度文修大语言模型功能和特点。他指出,一字之差,谬之千里,校对需要机器更好地理解和生成文本,需要一定的逻辑思维和推理能力。相比较而言,统计语言模型的文本特征表示能力较弱,而大语言模型通过大规模自监督方式学习自然语言的模式和语言结构来理解文本。作为面向中文校对任务的大语言模型,文修大语言模型以校对任务为目标,具有精准的常见错别字校对能力、提升易混词细微语义的辨析能力和尊重作者表达意图的句子润色修饰能力,将助力校对领域的能力再提升。
领取专属 10元无门槛券
私享最新 技术干货