Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >NLP算法面经分享

NLP算法面经分享

作者头像
zenRRan
发布于 2022-08-26 07:57:30
发布于 2022-08-26 07:57:30
1.8K00
代码可运行
举报
运行总次数:0
代码可运行

每天给你送来NLP技术干货!


编辑:AI算法小喵

写在前面

今天给大家分享一份NLP算法方向的社招面经,当然校招也可以参考,希望对大家有所帮助。在今年这个相对糟糕的大环境下,面试者历经1个多月的刷题复习+1个多月的面试,最终拿到了多个大厂offer。

1.背景

2022年大环境不太好,整体hc(head count)比2021年少了很多,回想2021年,各个候选人所到之处,各家大厂中厂竭诚欢迎,hc充足,大家挑花了眼,那种生机勃勃,万物竞发的景象犹在眼前,没想到短短一年之后,居然情况急转直下。

情况介绍:我主要做nlp,也涉及到多模态强化学习。2022年的大环境比较差,能投的公司不是很多,比如腾讯,主要还是高级别的,所以腾讯我就没投(说得好像我投了能面过一样...)。面了的公司包括小红书抖音寒武纪蚂蚁,还有一些国企和研究院,比如北京智源人工智能研究院,某国内金融公司,其他的用来练手也面了一些,比如蔚来汽车吉利汽车华人运通boss直拒,还有一些元宇宙公司,AI制药公司之类的,拿到了其中大部分offer,当然我自己也遇到一些拉胯情况,比如小红书二面挂[笑哭]。

2. 面试总结

这一个多月面下来,总体面试考察主要包括下面几个模块:代码题+项目细节+八股文+场景题。其中:

  • 代码题

代码题,写不出来大概率还是要跪的,我觉得刷200道左右一般就问题不大。200道争取达到肌肉记忆,就是给出你题目你要10s之内给出思路,哪怕没有bug free,但是一定要保证有思路。有一点要注意,200道高频题刷2遍,好过400道题目刷一遍,重点还是刷高频题。另外推荐的刷题地址,里面可以选择公司和标签:

刷题地址:https://codetop.cc/home

  • 项目

项目细节我的感触最深,有些面试官会问的很细,在不断的试探我们的边界,所以项目细节还是要准备到位。通过这段时间的面试我反而对项目的理解更深刻,不知道这算不算面试给我带来的收益?

这里有一个提高通过率的小trick:可以和1个或者多个靠谱小伙伴一起,让大家看对方的简历,假设自己是面试官,然后针对项目出一些题目,这样一来可以查漏补缺,有点co-teaching的感觉,这个方法还是挺管用的,大家可以试试~

  • 八股文

八股文的话主要围绕项目出题,比如你做了强化学习的东西,那么常见的reinforce,actor-critic,on policy和off policy的区别,一定要掌握。比如你项目用到了swin-transformer,那么swin-transformer和传统的transformer的区别是什么,patch merging怎么做的,要清楚。

  • 场景题

场景题可能是大厂喜欢考察,小厂不一定问。

3.面经

废话不多说,面经奉上。

3.1 小红书

3.1.1 小红书一面
  1. 聊项目。
  2. 你们的训练集和验证集,测试集分别是多少?怎么来的?
  3. 宏平均和微平均是用来干什么的?是如何计算的?他俩的主要区别?
  4. 知识蒸馏为什么有效,详细介绍一下知识蒸馏?
  5. 强化学习适合在哪些场景使用?
  6. 智力题:如何用rand6实现rand10。
  7. 代码题:lc 76,最小覆盖子串。
3.1.2 小红书二面
  1. 聊项目。
  2. layer normalization的好处是?和batch normalization的区别?你有没有看过有的transformer也用bn?
  3. BERT的主要改进,包括结构的改进,预训练方式的改进,都说一下?(这里能说的很多,挑自己熟悉的说就行)
  4. Reformer中,LSH(局部敏感哈希)是如何实现的?
  5. CRF和HMM的区别,哪个假设更强?他们的解码问题用什么算法?
  6. lstm参数量计算,给出emb_size和hidden_size,求lstm参数量。
  7. cv中有哪些常见的数据增强方式。
  8. 简单实现一个layer normalization类,只需要实现__init__和forward就行。

总结:这一面压力不小,而且面试官从一开始就多次打断我的说话,说我目前做的项目没意义,而且表情好像不耐烦,不知道是不是晚上面试耽误他下班了。这是我体验最差的一场面试,当时我有点想和他怼起来,但是想想还是忍住了,最后挂了也是意料之中

3.2 抖音

3.2.1 抖音一面
  1. 聊项目。
  2. AUC的两种公式是?你能证明这两种等价的吗?
  3. BERT-CRF中,为什么要加CRF?好处是?
  4. self-attention为什么要用QKV三个矩阵,不用有什么问题?有没有哪个模型的Q和K矩阵是一样的?
  5. reinforce属于on-policy还是off-policy?为什么?
  6. reinforce带上baseline好处是?reinforce的loss写一下?
  7. 策略梯度会推导吗?简单写一下?

代码题(代码题一般别着急写,先跟面试官说下思路,确定了再写):

  1. lc 46,全排列(lc表示leetcode,下同)。
  2. lc 73,矩阵置0。

总结:这一面我以为面试官只会问多模态,不会问强化学习,没想到这个面试官好厉害,强化学习也很懂,真的很强啊,我比较好奇,他们哪里来那么多时间看那么多领域的东西

3.2.2 抖音二面
  1. 介绍项目。
  2. 知识蒸馏有哪几种?你觉得哪种效果最好?
  3. nlp的数据增强方法,主要有哪几种?每一种举个例子?
  4. 分类的损失函数为什么是交叉熵而不是mse?
  5. BERT对输入文本的长度有什么限制,为什么要限制长度呢?
  6. BigBird里面有哪几种注意力机制?相比原始transformer的self-attention的优势?
  7. 场景题:如何根据拼多多的商品数量,估计淘宝的商品数量?
  8. 给出emb_size, max_len, vocab_size, ff_inner_size,num_heads, 12层,求BERT参数量。
  9. 代码题:n皇后问题。

总结:给我来了一道hard题目,我以为我要挂了,结果没几分钟HR告诉我过了。

3.2.3 抖音三面
  1. 简单聊项目。
  2. CRF和HMM区别?CRF为什么比HMM效果好?
  3. 如果BERT词表很大,比如vocab_size达到几百万,怎么办?
  4. 快速手写一些transformer的mha(多头注意力),伪代码意思一下就行。
  5. 为什么对比学习中,temperature很小,而知识蒸馏的temperature比较大?
  6. 你觉得在抖音买东西,和淘宝、拼多多他们的区别是?(我没在抖音买过,就只能现场编。)
  7. 你最近看到过哪些paper?简单介绍下?
  8. 你觉得自己有那些优缺点?平时喜欢怎么缓解压力?

总结:这一面的面试官很和蔼,一直笑呵呵的,后面就是闲聊了,体验很不错。

3.3 蚂蚁

3.3.1 蚂蚁一面
  1. 聊项目。
  2. 多模态的预训练方式你知道哪些,知道的都说一下?
  3. coca和CLIP的区别?为什么coca效果比CLIP好?
  4. CLIP预训练的时候,batch size达到了32768,他用到了哪些trick去提高batch size?
  5. CRF的loss写一下,CRF打破了HMM的哪个假设?
  6. 对比学习为什么有效?cv和nlp的经典的对比学习的模型说一下?
  7. 多头注意力的头的数量,对参数量有影响吗?为什么?
  8. transformer里面为什么要加add&norm模块?好处是什么?

代码

  1. 简单实现一个transformer-encoder-layer,要求pre-norm和post-norm可选。
  2. 编辑距离。

这和我想的蚂蚁的面试不太一样,我以为蚂蚁的代码题会容易一些呢,之前看到的面经,蚂蚁的代码题一般以medium为主

3.3.2 蚂蚁二面
  1. 聊项目。
  2. 衡量对比学习的两个指标是哪些?公式?
  3. transformer相比lstm的优势有哪些?
  4. distillBERT, tinyBERT, mobileBERT和miniLM,他们是如何对BERT蒸馏的?
  5. ViT是如何对图片进行处理的?为什么要加position embedding?
  6. 说到position embedding,transformer一定要加position embedding么?有些模型没有加pe,你知道吗?
  7. beam search的思想,伪代码实现。
  8. 代码题:lc 33,排序数组的搜索。
3.3.3 蚂蚁三面:
  1. 聊项目。
  2. 多头注意力,给出序列长度n和hidden_size,那么多头注意力的时间复杂度是多少?
  3. ALBert相比BERT的改进,说一下?
  4. BERT预训练有哪些问题?后面的模型怎么改进的?重点说说ELECTRA和MacBERT。
  5. 有没有了解过,有的模型用生成的方式做信息抽取?
  6. 讲一下UIE模型是怎么做信息抽取的?其中的SSI和SEL说一下?
  7. 你老家哪里的?有哪些兴趣爱好?
  8. 你觉得自己优缺点有哪些?
  9. 我们走个流程,来一道代码题吧:lc  207,课程表。

3.4 寒武纪

3.4.1 寒武纪一面:
  1. 聊项目。
  2. 你知道哪些对比学习的方法?cv和nlp都说一下。
  3. simCLR和moco区别?moco里面加k_encoder的作用?
  4. moco v2, moco v3相对moco的改进有哪些?
  5. resnet为什么效果好?残差连接的好处?
  6. pytorch中,dataloader dataset和sampler的关系?
  7. 动态图和静态图区别?
  8. 蒸馏,量化和剪枝的原理大致说一下?
3.4.2 寒武纪二面:
  1. 聊项目。
  2. 简单介绍一些CRF的好处,CRF条件概率的公式写一下。
  3. transformer相比lstm的优势有哪些?
  4. transformer优点那么多,是不是可以淘汰lstm了,以后全用transformer?
  5. swin-transformer和ViT的区别?数据量少的时候,他们和ResNet比,哪个效果好?为什么?
  6. 寒武纪做什么你知道吗?分布式训练用过吗?
  7. pytorch的ddp和dp区别是什么?
  8. 你对混合精度的了解多吗?说一下混合精度的原理?

4. 面试感受总结

  1. 高密度的面试挺累的,所以我建议分阶段面试:前期面试一些练手的小公司,同时这些小公司也不能太水,不然达不到练手的效果,然后比如隔一周时间稍微总结下,接下来正式面试自己的dream company。
  2. 结对跳槽是个不错的选择,这次跳槽我和朋友一起跳,相互给对方出题,相互吐槽自己遇到的奇葩面试官,比自己一个人跳槽有趣的多。这次面试的复习过程也得到了很多大佬的帮助,比如     给了我很多指点和建议,没有他们的帮助我估计面试通过率下降一半,所以内心真的特别感谢~

持续更新中,因为最近面试完了以后有点累,加上本身工作也有点忙,面经没写完,后面会继续更新~

文章来源:https://zhuanlan.zhihu.com/p/546364420 作者:年年的铲屎官


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing


代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱语音识别等。

记得备注呦

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
整理不易,还望给个在看!
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
很强!社招NLP算法收割机
每天给你送来NLP技术干货! ---- 作者 | 年年的铲屎官   整理 | NewBeeNLP  https://zhuanlan.zhihu.com/p/546364420 背景介绍 知乎上有个问题是有哪些行为堪比「1949年加入国民党」?[1], 那么我觉得我选择在2022年跳槽也算是一种吧[捂脸]。 2022年大环境不太好,整体hc(head count)比2021年少了很多 ,回想2021年,各个候选人所到之处,各家大厂中厂竭诚欢迎,hc充足,大家挑花了眼,那种生机勃勃,万物竞发的景象犹在眼前,没
zenRRan
2022/08/26
8960
很强!社招NLP算法收割机
算法大佬教你社招如何收割offer (抖音/蚂蚁/寒武纪/国企研究院等)
作者是NLP算法方向,历经1个多月的刷题复习+1个多月的面试,社招基本结束,面试了多家公司(抖音/蚂蚁/寒武纪/国企研究院等),收割了其中大部分offer,在此记录一下其中的面试题,希望对大家有用~
枫桦
2022/08/02
9910
面经 | NLP算法岗(微软)
a. 此次面试的内容基本是围绕主流nlp模型和基础的模型知识展开的,算法题是leetcode上的简单与中等;
用户3946442
2022/04/11
5270
面经 | NLP算法岗(微软)
面经 | NLP算法岗(作业帮)
这是我面的第一家公司,也是拿到的第一个offer 师兄和面试官都给我留下很深刻的印象 (悄悄: 得知公司业务很强,利润很大 面试体验 a. 作业帮的提前批面试时间相对较早,今年是在7/8月份 b. 面试内容更侧重编程和逻辑题,项目没有问的非常深入 c. 面试体验很好,面试官都很nice,流程很快,衔接很好 一面 编程题: 逆时针打印数组 (剑指offer 和 leetcode54都有的常见题,常为顺时针打印数组) 给先序遍历重构二叉树 (例如输入为124XXX3XX,X表示空,无叶子节点) 有随机数0
用户3946442
2022/04/11
4180
面经 | NLP算法岗(作业帮)
面经 | NLP算法岗(百度)
提前批在8月初,三面技术面,没有HR面(其中三面听说是大boss面,技术人际各个方向都会涉及)
用户3946442
2022/04/11
2470
面经 | NLP算法岗(百度)
【分享】自身经历谈一谈自然语言处理领域如何学习?
前段时间有朋友询问说NLP领域如何学习,然而一直忙于毕业论文中实在没有时间,两年半真的实在太难受了。昨天刚交了盲审,祈祷顺利毕业呀。
zenRRan
2019/11/12
5260
超详细!腾讯NLP算法岗面经(已offer)
首先来段简单的自我介绍:2021届硕士,硕士期间未有实习经历,本科大三有过一次实习,小公司,可以忽略。本人投递的是腾讯暑期实习:技术研究-自然语言处理方向。
NewBeeNLP
2020/08/26
3.6K0
字节AI Lab-NLP算法热乎面经
先说下感受吧。本人在今年3月1号(周日)投递简历,隔天周一hr就约了周四的面试,结果那天是2面视频技术面+hr面直接走完了,周五内推的学长就告诉我过了,紧接着就是offer call。整体投递+面试+发录用通知函的时间不到一周,而且面试官都是和简历对口的,整体体验非常棒。
NewBeeNLP
2020/08/26
1.6K0
【干货】程序媛小姐姐的算法岗暑期实习指南
今天和大家分享一名程序媛小姐姐的算法岗暑期实习指南,包括时间线,笔经面经,满满的干货不容错过,话不多说进入正题:
秋枫学习笔记
2022/09/19
6540
无问西东 | 计算机科班小硕的秋招之路
背景为211本硕&计算机科班,无论文无实习,去年趁着暑假时间做了两个竞赛,名次top20这样子,研究生主要是做城市计算的,涉及到机器学习、深度学习、强化学习和图方面的一些算法和内容,导师不怎么管,所以这些理论知识基本都是自学的,其中强化学习是因为疫情在家,觉得开学要找工作了,只靠机器学习和深度学习估计没啥竞争力,所以硬着头皮把强化学习的理论给啃了下来,希望能添加点亮点;剑指offer在家刷了一遍,6月份开学开始刷leetcode,大概刷了150道左右吧,刷的题不是很多,所以后面面试考算法题不是特别顺利,笔试难点的公司基本挂掉。
石晓文
2020/09/25
1.1K0
终于来了!这份NLP算法工程师学习路线yyds!
大家都知道NLP近几年非常火,而且相关技术发展也特别快,像BERT、GPT-3、图神经网络、知识图谱等技术被大量应用于项目实践中,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求。于是很多人欲转行NLP。 但是最近有同学私信我,NLP很难学,这条路能坚持走吗? 对于这位朋友的问题,我想从两方面开始回答。 NLP学起来不容易 01 很多大多数欲从事NLP相关工作的同学,往往都是通过自学的方式来进行学习,但是这样很明显的问题是: 1. 虽然学习了解了很多算法模型,但是技术深度和宽度的理解是比较薄
zenRRan
2022/06/07
1.6K0
终于来了!这份NLP算法工程师学习路线yyds!
[211渣硕] 腾讯/阿里/携程 详细NLP算法实习 面经
作者 | MirzaZhao 编辑 | NewBeeNLP 面试锦囊之面经分享系列,持续更新中 211菜硕,手里2篇水文。听说之前算法很卷,头铁一次试试。 阿里 一面 没打招呼突击电话面试(30min) 地点ok?时间ok?(base杭州,暑期,全部ok ok ok)简单自我介绍一下,项目经历选一个说说? 项目中对于没有标签的数据,怎么处理,还有什么别的方法?(我用的远程监督,别的还有one-shot zero-shot label embedding) 假设一个情景题,微博创立初期,短文本,10w数
NewBeeNLP
2021/04/26
9120
【面经】国内大互联网公司机器学习/深度学习面试题
【新智元导读】本文作者最近就机器学习/深度学习的岗位面试了一圈大的互联网公司,而且基本上投的公司都给了offer。作者分享了他的面经,希望对nlp或者机器学习/深度学习感兴趣的朋友准备面试有点帮助。 一些面试的建议: bat三家都喜欢问大量的计算机基础知识,考察工程能力,b都喜欢问数据结构和leetcode,t问的比较随意但是很考察思维能力;(当然还是得看面试官) 对于像我这种非计算机班科出身的(数学统计),面机器学习算法的公司比较容易,面工程的公司比较难; 深度学习入门门槛很低,但是精通门槛很高,仍然很多
新智元
2018/03/22
2K0
从普通双非到百度算法岗,优秀!
今天给大家分享一位23届普通双非硕士参加腾讯、百度和京东等大厂的日常实习经历,最终斩获百度算法岗实习offer,面经干货十足,希望能帮助到即将面试的小伙伴们,以下为原文。
对白
2022/09/01
6590
NLP面经汇总
1. 根据我简历上的项目,问我LR的一些基础知识,然后让我用python的numpy手写LR
用户2145057
2020/01/15
1.2K0
NLP面经汇总
鹅厂春招实习面经,IEG游戏运营岗
985理科小硕,网瘾少女,之前没有互联网实习经历,试水鹅厂 没拿offer,但实际结果比预期要好,走到总监面, 也算是得到了一定的认可,申请了补录但还没收到面试通知 希望还能有机会再战一波,写面经许愿 Round 1 笔试 鹅厂笔试不刷人,这里就不分享题目了,但需注意: 游戏运营的模拟题是游戏知识题,而正式笔试题是行测+游戏简答, 如想刷个好成绩,可以去刷刷行测练手 Round 2 群面 题目是分析抖音的用户人群,面试官提示从需求入手,并且从使用场景、用户习惯、功能设计几个方面入手,讨论游戏
牛客网
2018/05/30
3.1K0
算法实习生面经(nlp、数据挖掘、机器学习)
算法实习生面经(nlp、数据挖掘、机器学习) 作者:酱油大大大 链接:https://www.nowcoder.com/discuss/155251?type=2&order=3&pos=7&page
牛客网
2019/05/07
1.2K0
"铜三铁四",从天坑专业到字节算法岗
现在的互联网行业就是裁员消息漫天飞,尤其是疫情之下,太难了。今天分享一个学弟的暑期实习面试历程,他是从本科生物跨专业考研到计算机,面了N家公司,也如愿拿到了一些offer。以下是原文~
NewBeeNLP
2022/06/06
1.4K0
面经 | NLP算法岗(腾讯)
提前批投递时可以自主选择部门,有些部门的hc几乎全都留给实习生转正,建议无法实习的童鞋们,提前做好调研,避开这些部门。
用户3946442
2022/04/11
4920
面经 | NLP算法岗(腾讯)
掌握BERT、GPT-3、图神经网络、知识图谱等大厂必备技能!
金三银四很快就到了,铁子们做好跳槽拿高薪的准备了吗? 回想去年的算法岗,可谓是从灰飞烟灭到人间炼狱。之后的趋势都变成了这样:转行的开始转行,换专业的开始换专业。 于是很多人欲转行NLP,原因是NLP技术近几年发展非常快,像BERT、GPT-3、图神经网络、知识图谱等技术被大量应用于项目实践中,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求。  但是最近有粉丝私信我,NLP很难学,这条路能坚持走吗? 对于这位朋友的问题,我想从两方面开始回答。 NLP学起来不容易 01 很多大多数欲从事N
昱良
2022/03/04
5420
推荐阅读
相关推荐
很强!社招NLP算法收割机
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验