嘉宾 | 蒋宏飞
编辑 | 林晓婷
为了提升用户体验,作业帮将 NLP 技术应用到业务的提质增效上,沉淀出了智能质检平台 IQC、文本智能标注平台 FTP 等自研平台,也产出了很多在 NLP 中应用深度学习的可供参考的实践。
伴随着深度学习场景的增多,NLP 技术也得到了快速发展,作业帮作为 K12 教育平台,对用户体验提升有很高的诉求,所以他们将 NLP 应用在业务的提质增效上,沉淀出了智能质检平台 IQC、文本智能标注平台 FTP 等自研平台,也产出了很多在 NLP 中应用深度学习的可供参考的实践。
InfoQ 采访到了作业帮自然语言处理技术负责人蒋宏飞博士,请他谈一谈 NLP 技术在作业帮在线教育基础设施建设方面的实践和经验。更深入的内容可以关注蒋博士在 5 月 29-31 日 QCon 全球软件开发大会(北京站)上的演讲话题。
InfoQ:基于什么样的业务背景,作业帮引入了 NLP 技术?
蒋宏飞:作业帮每天都会产生海量的文本数据,其中蕴含着大量有价值的信息,在引入 NLP 技术前,文本数据分析主要还是靠人工,无法对数据进行全面覆盖,相对于机器的客观稳定,人的表现会存在不稳定和不一致的可能性,最重要的是文本信息处理不及时,如此会造成热点问题无法及时准确发现、用户体验优化点定位不准确不全面、课程体系迭代无法真正基于用户反馈进行驱动等问题。因此,基于业务需求,我们采用了 NLP 技术。但在应用初期,由于数据平台、业务流程平台等基础设施不太健全,算法对业务的价值无法正确评估,导致在采用 NLP 技术过程中遇到了很多阻碍。随着技术与业务间相互推动促进、快速迭代,这些问题都逐步得到解决。
InfoQ:作业帮目前有哪些 NLP 新技术落地的进展,是否沉淀出一些技术平台?
蒋宏飞:NLP 方面,一些基于统计的技术方案仍在使用,有些场景下性价比还是比较好的。
随着 NLP 新范式,特别是预训练 + 微调路线的逐步工业化落地,作业帮的很多 NLP 任务也开始大规模采用,比如很多分类打标任务都是以 Bert 框架为基础的。
从效果上看确实有提升,不过综合考虑数据的规模以及新技术框架的计算效率,我们也会根据不同业务落地场景设计不同的前置过滤技巧来大幅度提升整体效率。
随着支撑业务范围的不断拓展、技术方案的迭代创新,会持续积累出大大小小各种模块、各种实践经验,为了达到高效整合复用以更好更快支持业务效果,基础性技术平台的建设就非常重要。其中,比较有代表性的,也是我将在 5 月 31 日 Qcon 全球软件开发大会(北京站)分享中重点跟大家交流的两个平台:
InfoQ:您上面提到的 IQC、FTP 两个平台的主体架构大概由哪些模块组成?
蒋宏飞:IQC 设计上考虑了可扩展性、易用性、以及智能性等因素,实现了质检业务层和算法技术层面的完全解耦,支持快速扩展到新增业务场景,交互使用上实现了所见即所得,利用前沿的 NLP 技术对策略编写提供智能推荐支持,另外开发了自动策略更新模块,可以根据线上数据进行迭代式增量自动优化。它主要包括以下 5 个模块:
FTP 平台是以作业帮在线教育业务场景来驱动设计的,主要特点包括:支持动态标签体系的标注,支持不同标注模式 (异常数据富集、模型快速扩标等),支持在迭代环节中灵活选择多种抽样策略等等。它的模块主要包括以下几点:
这里可以强调一下,IQC 和 FTP 平台都是作业帮产研团队完全自主设计研发的。
InfoQ:NLP 已经是深度学习的核心应用领域,是否可以列举目前作业帮在 NLP 中应用深度学习的最佳实践有哪些?
蒋宏飞:NLP 在业务中的使用场景比较具体,也比较丰富多样。而深度学习式的 NLP 也算是目前的主流路线,只要能满足性能要求,一般会考虑深度学习。
深度学习比较依赖海量数据来学习和训练,作业帮的业务场景每天都会沉淀大量的标注数据,比如双语翻译数据、练习测评数据、批改订正数据等,更会沉淀大量非标注数据,比如用户拍搜、用户反馈、服务沟通、业务咨询等。
基于这些标注数据和无标注数据,通过相应的深度学习模型及训练算法(有监督、无监督等),可以产出丰富的技术服务:
应用场景非常丰富,而且还在不断扩展,很多都是"创新 ->应用 ->创新 ->..."技术和业务互相推动的模式。
InfoQ:NLP 技术在作业帮各个在线教育业务场景中的创新探索,有哪些值得业界借鉴的经验?
蒋宏飞:这里分享一些体会吧。在线教育是全新的业务模式,相对其他互联网业务模式而言,链路相对较长,人的服务相对重,非结构化数据多。我们除了探索直接面向学生用户的各种学习工具应用外,还有一大块是做服务的提效提质。
在业务发展初期,业务迭代变化非常快,很多底层的数据基础设施不会太完善。刚开始会面临数据不全、数据不及时等现实问题,如何在现有情况下通过技术方案的设计以及上游的推动协同,让事情先做起来,主要是靠自驱意识。
另外,教育的用户很丰富,不同学科学段、不同城市、不同教材版本、不同上课节奏,都会给技术在业务上落地带来挑战。从数据的获取、标注、模型训练、上线再到随时间或者业务迭代变化导致的任务定义的变更,NLP 模型的调整、迁移,都需要有统筹考虑,尽量能做好复用和高效迁移。
再有就是,NLP 相对语音技术、图像技术来说,和业务贴的更紧密些。因此,需要 NLP 算法同学尽可能全面深入了解业务,和业务老师保持及时沟通。更重要的是,NLP 算法同学要主动多想哪些技术可以改善 / 变革现有业务做法,敢于尝试敢于创新。
InfoQ:2021 年,你们计划在哪些 NLP 技术方向上做更多应用探索?
蒋宏飞:在技术上,有不少方向需要探索和尝试落地。比如:
嘉宾介绍:
蒋宏飞:长期从事机器翻译、智能问答、文本结构化分析等研发工作。在 ACL、Coling 等会议上发表文章多篇。拥有 20 多项文本挖掘分析、机器翻译、智能交互技术方面的专利。目前在作业帮主要负责业务涉及:自然语言基础技术模块研发、智能质检、文本数据结构化分析、学习工具类。
5 月 29-31 日,QCon 全球软件大会 2021 ·北京站——【人工智能驱动业务实践】专题下的《NLP 技术促进在线教育业务提效的实践和创新》将详细讲述更多作业帮在 NLP 技术方面的实践经验,欢迎大家来到现场与蒋宏飞博士深入探讨。
此外,本专题下还有阿里、快手、百度、腾讯、滴滴等公司的讲师分享关于人工智能大规模业务场景(比如推荐、广告、搜索等)的实际落地案例和实践经验,更多精彩内容可以【扫码】或点击【阅读原文】查看。
目前会议 8 折购票倒计时 7 天,现在购票立减 1760 元,团购还有更多优惠!
☞ 有任何问题欢迎联系票务小姐姐 Doris:17310043226(电话同微信)
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有