迁移学习在任何一种学习中都是至关重要的。可以这样说,对于人生中每一个任务或是难题,我们没有被授以解决方法以获得该事件的成功。每个人都会遇到从未遇到过的情况,我们仍然设法以特殊的方式解决问题。从大量的经验中学习,并将“知识”导入到新的环境中,这正是迁移学习的全部意义所在。从这个角度来看,迁移学习和泛化在概念层面上是非常相似的,两者的主要区别在于迁移学习经常被用于“跨任务迁移知识,而不是在一个特定的任务中进行泛化”。因此,迁移学习与所有机器学习模型所必需的泛化概念,两者之间有着内在的联系。
迁移学习是确保在存含有大量小数据环境下实现深度学习技术突破的关键所在。在研究中,深度学习几乎是无处不在,但是在很多实际生活场景,我们通常没有数百万个标记数据点用以对模型进行训练。深度学习技术需要大量的数据以调整神经网络中的数百万个参数。特别是在监督学习的情况下,这意味着你需要大量(非常昂贵的)已标记数据。标记图像听起来微不足道,但是对于自然语言处理(NLP)中的样本来说,需要专家知识才能创建大型标记数据集。例如,宾州树库(Penn treebank)是一个词性标记语料库,已经有7年的历史了,需要许多具备专业知识的语言学家密切合作对其加以改进和完善。迁移学习是减少数据集所需大小的一种方法,以使神经网络成为可行的选择。其他可行的选择正朝着具有更多概率性启发的模型发展,这些模型通常更适合于处理有限的数据集。
迁移学习有着显著的优点,同时缺点也是显而易见的。了解这些缺点对于成功的机器学习应用来说具有至关重要的作用。知识迁移只有在“适当”的情况下才有可能实现。在这个上下文下,对“适当”进行确切的定义并不是一件容易的事情,并且通常需要进行实验。你不应该相信一个开着玩具车孩子能够驾驭一辆法拉利。对迁移学习来说道理是一样的:虽然很难对其进行量化,但迁移学习是有上限的,它并不是一个适合于解决所有问题的“万金油”。
迁移学习
领取专属 10元无门槛券
私享最新 技术干货