前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【论文阅读】- 怎么快速阅读ML论文?

【论文阅读】- 怎么快速阅读ML论文?

原创
作者头像
百川AI
修改2022-10-08 16:05:58
5530
修改2022-10-08 16:05:58
举报
文章被收录于专栏:我还不懂对话

主题框架翻译于Eric Jang的博客https://blog.evjang.com/2021/01/understanding-ml.html,加了一些个人观点。

机器学习的论文很多,怎么从Arxiv上泛滥的文章中选择论文阅读,那么我们就需要快速地了解论文内容概要,从而决定是否精读。那么怎么快速阅读呢,作者提出只需要阅读过程中只需要回答出以下5个简单问题即可:

1. 文章的模型(函数)的输入是什么?

例如,一些图像问题,输出是224x224x3的RGB图像;对于文本分类,一般输入是一个文本token序列。

2. 文章的模型(函数)的输出是什么?

例如,1000个向量(1000分类问题)

了解了模型的输入输出之后,你大致就能脱离模型,想到其他类似的方法来对比,或者考虑其他领域是否有一些算法也可以应用于此处。作者发现这种方法在Meta-Learning papers 领域非常有用。

通过输入和期望的输出来思考ML问题,你能够判断该输出对于预测输出是否足够。这是一个前提,如果输入不足以预测输出,那么任何fancy的算法,可能都是徒劳。

3. 损失函数是什么,它为什么可以带给模型监督信号?这个损失的目标有什么前提假设?

ML模型是去拟合偏差和数据。有时候数据中偏差很大,有时候很小,为了确保模型泛化很好(拟合数据而非偏差)需要更多的偏差和数据,最好是无偏数据。

例如:很多优化算法都假设数据是平稳的,即马尔科夫决策过程(MDP)。在MDP中,“state(状态)”和“action(动作)”通过环境的过渡,动态确定地映射到“下一个状态、奖励以及episode是否结束”。这个结构,虽然非常普遍,但可以用来表述一个损失,允许学习Q值遵循贝尔曼方程(Bellman Equation)。

4. 训练完成后模型是否对未见数据具有泛化性?

个人认为是训练数据是否和真实世界数据分布一致?

模型在训练过程中从数据中捕获信息,ML一般都能泛化到未见数据,现在基本只要不是跨领域,泛化能力都不错,甚至随着大数据&大模型的普及,模型逐渐在多个领域达到很强泛化(甚至很强的zero-shot能力,例如gpt-3)。

5. 论文里面的说法是否可靠?

个人理解,是说论文里面指标是否靠谱,方法是否实用等。凭我自己的经验,一般可以从以下几点来看:

  • 论文方法是否过于trick,是否非常复杂(奥卡姆剃刀原理)。一般很好的论文思想都很简单,反而是一些水文花里胡哨,指标提升像极了随机波动。
  • 是否开源代码。这个很重要,开源也分很多级别:
    • 第一档:被开源框架集成,那么这种算法基本没啥问题,方法也是被业界其他人认可。
    • 第二档:整理很好,训练预测脚本都很清楚。
    • 第三档:乱七八糟,甚至只给一个readme,这种相当于没有开源。
  • 是否公开了模型,这也很重要,因为他的指标靠不靠谱,一预测就知道了。

Reference

image.png
image.png

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 文章的模型(函数)的输入是什么?
  • 2. 文章的模型(函数)的输出是什么?
  • 3. 损失函数是什么,它为什么可以带给模型监督信号?这个损失的目标有什么前提假设?
  • 4. 训练完成后模型是否对未见数据具有泛化性?
  • 5. 论文里面的说法是否可靠?
  • Reference
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档