主题框架翻译于Eric Jang的博客https://blog.evjang.com/2021/01/understanding-ml.html,加了一些个人观点。
机器学习的论文很多,怎么从Arxiv上泛滥的文章中选择论文阅读,那么我们就需要快速地了解论文内容概要,从而决定是否精读。那么怎么快速阅读呢,作者提出只需要阅读过程中只需要回答出以下5个简单问题即可:
例如,一些图像问题,输出是224x224x3的RGB图像;对于文本分类,一般输入是一个文本token序列。
例如,1000个向量(1000分类问题)
了解了模型的输入输出之后,你大致就能脱离模型,想到其他类似的方法来对比,或者考虑其他领域是否有一些算法也可以应用于此处。作者发现这种方法在Meta-Learning papers 领域非常有用。
通过输入和期望的输出来思考ML问题,你能够判断该输出对于预测输出是否足够。这是一个前提,如果输入不足以预测输出,那么任何fancy的算法,可能都是徒劳。
ML模型是去拟合偏差和数据。有时候数据中偏差很大,有时候很小,为了确保模型泛化很好(拟合数据而非偏差)需要更多的偏差和数据,最好是无偏数据。
例如:很多优化算法都假设数据是平稳的,即马尔科夫决策过程(MDP)。在MDP中,“state(状态)”和“action(动作)”通过环境的过渡,动态确定地映射到“下一个状态、奖励以及episode是否结束”。这个结构,虽然非常普遍,但可以用来表述一个损失,允许学习Q值遵循贝尔曼方程(Bellman Equation)。
个人认为是训练数据是否和真实世界数据分布一致?
模型在训练过程中从数据中捕获信息,ML一般都能泛化到未见数据,现在基本只要不是跨领域,泛化能力都不错,甚至随着大数据&大模型的普及,模型逐渐在多个领域达到很强泛化(甚至很强的zero-shot能力,例如gpt-3)。
个人理解,是说论文里面指标是否靠谱,方法是否实用等。凭我自己的经验,一般可以从以下几点来看:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。