做AI项目,经常要面对两个课题:算法和数据。哪一个比较重要呢?自然是都重要,不过非要对比一下,我选择数据。
AI招聘的时候,一般都是招聘算法工程师,特别是很多大厂,非常重视算法的创新性,觉得这样能彰显水平,提升模型效果。不过现实往往不尽如人意,我曾经对比过上百个不同结构的模型,最终的训练效果却相差无几,差距甚至还不如一些重要的超参影响大。
当然,说数据是非常笼统的,并不代表把所有各种数据都搜集过来事情就算做完了。另外搜集数据的成功也不容小觑,比如做一个ASR模型,要录音要人工转写等等,每小时的费用可想而知。这时候,对数据的各种处理,数据增强,同时结合模型的特点进行调参,是获得不错效果的关键。
吴恩达有个采访:AI的下一个发展方向,从大数据转向小数据。这块有两层含义:第一,大数据很多时候是很难获取的,只能是少部分大公司的特权;第二,使用预训练模型进行finetune,这时候并不需要太多的数据,而是需要少量的高质量数据,让模型能够更好地学习。因为在预训练模型已经有了很好的基本功,这时候只需要在特定问题上进行升华即可。
此外,吴恩达还表示,一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作。上图是一个AI问题迭代的流程图,在问题建立后,第一步也是最重要的一步就是获取和准备数据。
你认为算法和数据哪个更重要呢?