众包迁移学习
众包迁移学习(crowd transfer learning)是迁移学习与群体智能技术相融合的新产物。目前众包已经被广泛应用在人工智能领域以获取足够的标注数据,但众包模式存在着高延迟和质量差距较大等诸多问题吗。在此基础上提出的众包迁移学习通过网络群体获取数据,采用知识迁移来提升数据质量和数据规模,降低数据获取成本。
众包迁移学习作为数据挖掘和人工智能领域一种全新的数据处理模式,其在数据集成、数据清洗和数据标注方面都有较为典型的应用。在传统众包场景下其任务的参与者往往良莠不齐,任务难度也不尽相同。如何判断任务的完成质量,推测任务的真实结果是众包迁移学习的研究热点之一,而交叉任务众包的提出是众包迁移学习的一个典型范例。该方法将历史任务的完成质量通过知识迁移的方法迁移到正在进行的任务上,并利用概率图模型推断出新任务的完成质量。这种方法在数据清洗与降噪上取得了良好的效果,也使得众包数据集成的结果变得更加可靠。
对抗迁移学习
在互联网时代,用户经常对产品或服务表达满意程度。如果我们把对产品或服务的评论分成正向或负向,就需要一个系统来辨别每一个评论的取向,这个系统叫做舆情分析系统。传统的舆情分析首先需要有人来标注正、负向的关键词,然后由系统根据这些关键词建立舆情分类器。设想我们要为一个新领域建立舆情分析系统,但是其中的用户评论缺乏标注,也没有与之匹配的关键词库。在这种情况下,迁移学习可以帮助我们从相似领域的分类模型中迁移知识,建立新领域的模型。
在建立一个基于迁移学习的舆情分析模型时我们可以利用领域的相似度来建立一个共有关键词库:一方面可以帮助在源领域进行分类,另一方面又与目标领域具有共性,也很难利用这些关键词来区分两个领域。这一迁移学习的思想可以用生成式对抗网络GAN(Generative Adversarial Networks)来建立。在我们的工作中,挑选关键词时,首先考虑提高源领域的模型准确度,然后尽量降低这些词对两个领域的区分能力,通过互相对抗的过程做到端到端的学习。经实验验证,这些共有关键词可以很好地解释舆情的取向,为模型提供了良好的可解释性。
领取专属 10元无门槛券
私享最新 技术干货