格隆汇4月24日丨有投资者在投资者互动平台向海天瑞声(688787.SH)提问,“ChatGPT超九成是英文语料库,作为人工智能技术驱动的自然语言工具,ChatGPT的中文答案不准确,主要在于目前中文语料学习库少,ChatGPT中文资料比重为0.09905%,而英文为92.64708%。ChatGPT通过大量语言数据进行训练而生成,中文语言模型的训练数据少,且中文复杂、理解难度大。请问公司是否有针对这个难题投入人力财力去拓展中文语言模型训练数据,以获取今后国内更大的业务。”
海天瑞声回复称,高质量的中文数据已成为拓展大模型中文理解能力的必要条件之一,随着中文大模型的发展,数据需求也将持续增长,在数量、质量、实时性等方面都面临痛点。目前公司已在为部分客户的大模型训练提供相关的部分数据服务,未来,公司将紧跟行业新的发展趋势,在过往积累的数据服务经验基础上持续创新,在新技术、新领域方面持续保持甚至扩大具备竞争力的研发投入强度,更好服务于产业链上各类客户的新兴数据需求。同时,也请您务必注意投资风险,理性决策、审慎投资。
领取专属 10元无门槛券
私享最新 技术干货