首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型人才高度稀缺,“选择”比“培养”更重要|对话昆仑万维

大模型人才高度稀缺,“选择”比“培养”更重要|对话昆仑万维

作者头像
量子位
发布于 2023-10-02 06:00:46
发布于 2023-10-02 06:00:46
4570
举报
文章被收录于专栏:量子位量子位

近期,“百模大战”愈演愈烈。在大模型热潮中,“人才”成为各大科技公司、创业团队和研究机构激烈争夺的焦点。然而,目前AIGC领域的尖端人才,仍存在较大缺口。

到底招募什么类型人才,有利于模型研发?

去哪里招募大模型人才?

如何培养大模型研发人才?

为了回答以上问题,量子位智库特别邀请AI大模型领域的从业者及领域专家学者,向企业团队和求职者分享大模型人才的机遇挑战以及未来发展前景

本文为量子位智库“大模型人才”系列深度访谈栏目,更多内容请关注即将发布的《2023 AIGC大模型人才发展全景报告》

访谈人物介绍

方汉,昆仑万维董事长兼CEO,中文Linux创始人之一,领导开发了国内第一款P2P下载软件DUDU加速器。

昆仑万维董事长兼CEO方汉

2008年加入昆仑万维,先后领导研发了《三国风云》和RPG类网页游戏《武侠风云》,并且多次获奖。

精彩观点

  • 1-2年内,算法人才的短缺情况会得到极大的缓解。
  • 我理解的人才创新意识,指的是在技术和工程角度如何创新性地解决问题、提高指标。
  • “选择”比“培养”更重要,自主学习比师父带徒弟更加重要。
  • 在大模型这样的全新领域,刚毕业的博士生经过半年时间的培养,也能成为领域专家。
  • 从供给角度看,目前大模型人才处于不足的阶段,3-5年后情况会极大地缓解。
  • 从宏观角度来看,与传统行业相比,大模型人才培养难题在于大学目前的算力不够。
  • 基于AI和大模型,在应用层面做出全新商业模式的企业将获得最大的红利。

访谈实录

大模型人才如何定义?

量子位智库:昆仑万维是如何划分大模型人才的?

方汉:我认为模型训练应该分成两大块,训练推断应用开发。按照模型训练的环节,我们又把人才分为算法侧人才、架构侧人才以及应用开发侧人才,核心算法人才又细分为预训练、数据处理、微调推断优化等等。

量子位智库:算法人才、架构人才、应用开发人才,您觉得哪类人才最为稀缺?而且未来很长一段时间都有可能很稀缺。

方汉:目前看,最稀缺的肯定是核心算法人才,但供需情况会迅速得到缓解。因为这里有一个很有意思的现象,目前各个大学算力是严重不足的,大模型相关方向又是当下热点,能转向这个研究领域的人才特别多,比如NLP,所有做NLP的人才全在转向大模型。

所以,我个人看法是1-2年内,算法人才的短缺情况会得到极大缓解,因为拿到高薪的算法人才特别多,我觉得中国在人才配比上还是很市场化的。

大模型人才应当具备的能力要素

量子位智库:那在招揽人才的时候,是比较看重人才本身哪些素质?

方汉:在您所说的学术成果、实践经验、学历背景和创新意识这几个方面,我们优先考虑的是实践经验创新意识:首先,大模型训练本质上是个工程问题,那么实践经验肯定是非常重要的。其次,大模型是创新项目,因为所有大模型企业都在齐头并进地去竞争,如果没有创新意识,很难领先于其他人的,因为这是全新的工程方向。

量子位智库:您是如何看待这种创新意识?

方汉:我理解的创新与大众定义的创新不太一样,以往更多是算法创新。我所说的创新,首先是紧跟大模型的前沿进展,全球范围内研究大模型训练的人非常多,这个方向进展很快,每天有几百篇新论文出来,在各个方向、领域做改进。第二个是能够从实际需求出发,用新方法来解决在工程上遇到的问题,这里的创新更关注的是如何在技术和工程角度创新地解决问题、提高指标

量子位智库:您觉得是否可以通过学术成果、专利成果等来判断大模型人才的创新意识?

方汉:我认为根据专利成果来判断人才的创新意识是不太合理的。OpenAI并没有那么重视人才在申请专利方面的表现,最好的创新其实依赖的是内部的经验积累,仅从专利角度来判断是不太合理的。

然而,学术成果是可以作为比较重要的判断依据。比如说第一个做出Vicuna模型,第一个做出ControlNet都是博士生,从这个角度来看学术成果可以作为一定参考。

但是在实际操作过程中,除了发论文的大创新以外,在工程上还要有无数的小创新来实现。所以,创新意识还是要根据人才在实践中解决问题的速度和交付能力来判断。

大模型人才的培养方式

量子位智库:天工大模型从1.0升级到3.5阶段,在不同的阶段会注重配置哪些领域的人才呢?

方汉:在早期阶段我们确实是更需要对大模型底层架构、对CNN、对Transformer更加熟悉的算法人才,当然还包括数据清洗、数据处理这些方面的数据科学人才;等到大模型逐渐成熟需要转向多模态,这时就需要一批做计算机视觉的人才;如果要对外发布大模型,就需要安全审核的人才。

量子位智库:昆仑万维是如何培养自有的大模型人才?

方汉:昆仑万维从2020年开始做大模型训练,当时市面上做大模型的人才非常少,走BERT路线的人比较多,走GPT路线的人比较少,所以我们当时选择自己培养大模型人才。

培养方式就是让有算法背景的人才学习模型训练方向,那么在招聘时就要考虑选择对机器学习深度学习熟悉的人才,同时有较强的自驱力和学习速度比较快的人才、有算法背景的人才,我们原来有一些人才研究的是CNN等技术方向,现在会更多地转向GPT训练方向。

量子位智库:您如何看待“大牛带小牛”的这种培养模式?

方汉:每个技术驱动的企业其实都会选择“大牛带小牛”的培养方式,但选择人才比培养人才更重要,自主学习比师傅带徒弟更加重要,所以在招聘时我们也十分看重人才的自主学习能力。

对于传统技术方向,比如Java,需要依赖丰富的经验,应届毕业生需要较长的培养周期,才能成长为领域专家。但大模型训练是新兴领域,工业界的积累并不比学术界深厚太多,我们比学术界多的是算力,在算法层面其实我们并不比高校领先太多。

量子位智库:那应届毕业人才如果成长为大模型专家,需要多长时间?

方汉:有大量在读博士生能够发表非常前沿的大模型论文,也看得出来很多大模型创新论文是博二、博三学生发的。我们在学校里找到来了就能上手的人才,花几个月就能成长为领域专家。

我们的想法是,从应届毕业的博士生中选择在校期间就表现出创新能力技术视野的人才,我们可以用较短的时间来培养“小牛”,就能成为您说的“大牛”。

量子位智库:通过几个月到一年的时间,这样的应届博士生就可以成为领域“大牛”,我理解您所指的“大牛”他们是具备核心研发的能力。

方汉:对,我们给年轻人的机会非常多。其实OpenAI做GPT训练的,可能才几十人,其中有一大批是刚毕业没几年的人才。我觉得国内大模型团队基本都是这样,这是一个全新的领域,新人的机会特别大。刚毕业的博士生干了半年左右,成为领域技术专家是没问题的,但管理能力肯定是有欠缺的。这个技术领域很新,大家都在同一个起跑线上向前跑,应届生不一定有劣势。

量子位智库:您说的应届人才大多是自然语言处理方向的吗?具体会细分到哪些领域?

方汉:也不完全是自然语言处理,我觉得在大模型全生命阶段,除了数据处理需要依赖工程积累,在预训练、RLHF、SFT、算子优化等方面,在学术上都有相应研究方向,所以我认为他们具备了70-80%大模型研发训练的能力。

研究机器学习、强化学习、深度学习的人才,转向大模型都非常容易。而且由于现在有很多开源模型,学术界基于开源模型做论文研究的人也很多,所以我不觉得高校人才存在分工上的绝对差距

国内大模型人才市场的发展情况

量子位智库:您觉得目前大模型人才市场整体发展如何?

方汉:我觉得大模型人才整体处于一个高度稀缺的状态,那么做存量的人会多一些。但是随着大模型从业者越来越多,分工也会越来越细,这是很自然的分化过程。任何一个新技术的发展过程都是这样,从早期的全栈工程师逐渐成为组长级、总监级的leader,然后组员的技术方向分化就会更明显。

量子位智库:昆仑万维招的人才大部分是来自高校,还是来自这个产业更多?

方汉:我们目前需要有实践积累的人才,就会更多选择来自产业的人才,他们有丰富的工程经验。但也会招聘应届毕业人才做储备,所以校招也比较多,校招跟社招的比率差不多1:5的关系。

量子位智库:您觉得目前的这个大模型人才发展处于一个什么阶段?

方汉:从人才整体的学术成果数量来看,全世界AI论文发表数排在第一的是中国,排在第二的是美国,论文数目是美国大于中国。

我认为在人才的能力要素方面,不同经验的人才都是大模型所需要的,刚毕业的应届储备人才、领域专家和领军人物这三者应该都有。但从供给角度来看,目前就是处于不足的阶段,大概3-5年后供给情况会极大地缓解,因为从设置科目到学生毕业也需要5年时间。

大模型人才的培养难题

量子位智库:您觉得人才培养可以从哪些方面进行提升呢?

方汉:我主要从两个来分享吧,企业角度和宏观角度。

企业角度来看,人才参与工程项目,成长就更快一些,这是非常明显且实际的方式。对人才更有耐心的大企业,人才做的事情会更专业,但小公司大模型团队的人才成长得更全面,大模型全栈的能力要素都要具备。

宏观角度来看,和其他传统行业相比,大模型人才培养难题在于大学目前的算力不够,导致学校很难培养出架构人才,这些人才只能去企业进行培训。这是全世界所有大学面临的困境,在国家级算力共享给大学之后,我们相信这种情况会得到缓解。

量子位智库:也就是更多依赖于产、学、研、策的联动来培养大模型的人才。

方汉:我觉得要尽量在学校里提供与企业一样的硬件条件,否则在学校里学到的东西肯定是相对有限的。

大模型人才和AI企业的未来发展趋势

量子位智库:那从您的角度来看,大模型行业整体未来会有什么样的发展趋势?

方汉:我觉得不应该叫大模型行业,应该是整个AI行业,AI行业遇到的机会应该是不亚于互联网和移动互联网。我对AI行业的发展趋势是非常看好的,我认为AI将深刻改变整个互联网,以及整个人类生活都会受到极大的冲击和改变,我觉得整个行业会发生方向性的转变。

量子位智库:基于这样的趋势,您觉得什么样的大模型人才会更受企业的青睐?

方汉:首先,现在已经形成“百模大战”的情况,大家都在做大模型底座,将来大模型底座这一块肯定会收缩到几家大厂商来提供,更多企业应该处在用大模型做应用的位置,那么我认为基于大模型应用开发的人才会越来越多。

而做大模型底层训练、优化算法和架构的人才会向大厂或是大模型团队去汇集,但我们认为最大的巨头不一定是大模型企业本身,而是基于大模型做出很强应用的这些企业。这些企业一旦它长大了,也会建立自己的大模型。

我们认为“应用为王”,就是指在应用上基于AI和大模型,做出全新商业模式的企业将获得最大的红利。那么我们认为在未来十年一定有像字节,美团、滴滴这样的新形态巨头公司出现,而且一定是从0到100长出来的,今年或者明年创立的公司应该都有这个可能性和机会。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-28 20:53,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Python深浅拷贝
对于字符串str、整数型int、布尔值bool三种不可变的对象类型,深浅拷贝是一样的,直接在内存中直接开辟空间进行存储。
皮大大
2021/03/02
4020
搞定面试之图解Python深拷贝浅拷贝
「引用」:在 Python 程序中,每个对象都会在内存中申请开辟一块空间来保存该对象,该对象在内存中所在位置的地址被称为引用,使用变量名进行指代。
吾非同
2021/01/06
4420
Python基础 | 深浅拷贝问题、递归函数练习
在实际工作中,经常涉及到数据的传递,在数据传递使用过程中,可能会发生数据被修改的问题。为了防止数据被修改,就需要在传递一个副本,即使副本被修改,也不会影响原数据的使用。为了生成这个副本,就产生了拷贝。下面先了解一下几个概念:对象、可变类型、引用
叶庭云
2021/12/07
5090
Python基础 | 深浅拷贝问题、递归函数练习
python学习笔记:深浅拷贝的使用和原理
在理解深浅拷贝之前,我们先熟悉下变量对象和数据类型 1.变量和对象 变量-引用-对象(可变对象,不可变对象) 在python中一切都是对象,比如[1,2],'hello world',123,{'k1
用户1679793
2018/04/28
7460
python学习笔记:深浅拷贝的使用和原理
python基础之深浅copy
首先在了解python中的深浅拷贝之前,我们先花一点时间来了解一下python内存中变量的存储情况。对于python而言,变量的存储采用了引用语义的方式,存储的只是一个变量值所在的内存地址,而不是这个变量的本身。
天钧
2019/07/26
3950
一、python学习笔记-基本数据类型-深浅拷贝(一)
"""定义 在Python中对象的赋值其实就是对象的引用。当创建一个对象,把它赋值给另一个变量的时候,python并没有拷贝这个对象,只是拷贝了这个对象的引用而已。 浅拷贝:拷贝了最外围的对象本身,内部的元素都只是拷贝了一个引用而已。也就是,把对象复制一遍,但是该对象中引用的其他对象我不复制(快捷方式) 深拷贝:外围和内部元素都进行了拷贝对象本身,而不是引用。也就是,把对象复制一遍,并且该对象中引用的其他对象我也复制。(复制) """ """术语解释 1、变量:是一个系统表的元素,拥有指向对象的连接空间
堕落飞鸟
2022/01/12
2810
​深度解析Python的赋值、浅拷贝、深拷贝
拷贝 就是把原数据复制一份,在复制的数据上随意改动不会影响到其原数据。也就是这里讲的深拷贝。
忆想不到的晖
2021/04/04
5K0
python高级-深浅拷贝(16)
一、浅拷贝 浅拷贝是对一个对象的顶层拷贝,通俗地讲就是:拷贝了引用,并没有拷贝内容。 a = [1,2,3] print(id(a)) b=a print(b) print(id(b)) a.append(4) print(a) print(b) 运行结果为: 1965053928072 [1, 2, 3] 1965053928072 [1, 2, 3, 4] [1, 2, 3, 4] 二、深拷贝 深拷贝是对于一个对象所有层次的拷贝,重新开辟内存地址。 import copy a = [1,2,3] pr
Se7eN_HOU
2019/09/11
3280
Python | Python学习之深浅拷贝
== 是 python 标准操作符中的比较操作符,用来比较判断两个对象的 value(值) 是否相等 。
咸鱼学Python
2019/10/09
4500
Python | Python学习之深浅拷贝
元组、字典、集合的内置方法,散列表、深浅拷贝学习笔记
元组的使用方法(与列表类似):索引取值、索引切片、for循环、成员运算、index获取元素索引、count计数
GH
2022/05/10
3600
元组、字典、集合的内置方法,散列表、深浅拷贝学习笔记
说一说如何理解深浅拷贝、Immutable、保护性拷贝
使用 = 的时候,其实是引用的拷贝。 多个引用指向的其实是同一个对象。 上面的例子中 ArrayList<Integer> list = new ArrayList<>()在堆内存中创建了ArrayList对象并且把list引用指向该对象的地址。 ArrayList<Integer> list2 = list 把list的引用赋值给list2,两个引用指向的都是上一步创建的对象。 对象拷贝分为深浅拷贝。
程序员小假
2025/07/01
910
说一说如何理解深浅拷贝、Immutable、保护性拷贝
Python深浅拷贝
深浅拷贝分为两部分,一部分是数字和字符串另一部分是列表、元组、字典等其他数据类型。
py3study
2020/01/15
4170
day06(深浅拷贝,元组,字典,集合)
1,今日内容: 1.深浅拷贝:**** 2.元组 - 元组可以存放可变类型 *** 3.字典:***** -- 增删改查 -- 常用方法 4.集合:** -- 集合运算 5.数据类型的相互转化 ******** 6.内存管理 ***** 二,深浅拷贝 ## 拷贝:对值进行复制的过程 # 1,值拷贝:应用场景最多 ls = [1, 'abc', [10]] ls1 = ls # ls1直接将ls中存放的地址拿过来 # ls内部的值发生任何变化,ls1都会随之变化 #2,浅拷贝
py3study
2020/01/16
3960
深拷贝和浅拷贝原来是这样?
为了让读者更好的理解深浅拷贝,在讲深浅拷贝之前要引入基本数据类型 , 引用数据类型 和 数据储存(栈和堆)这几个概念,如果已经理解,可直接跳过这一part。
IT人一直在路上
2019/09/16
4240
由问题入手,步步爬出Python中赋值与拷贝的坑
1、问题的引出 之前遇到了一个求数组中出现次数最多的k个元素的题,我们参照如下的思路进行求解,首先利用一个dict记录所有元素出现的次数,key:value中的key表示元素,value表示元素出现的次数,随后根据元素出现的次数将元素放入对应的桶中,桶是一个二维数组,桶中第一个元素保存出现次数为0的元素,桶中第二个元素保存出现次数为1的元素,依次类推。最后从后往前遍历桶,取出出现次数最多的k个元素即可。 按照这样的思路,我写了如下的代码: class Solution(object): def to
石晓文
2018/04/11
9600
由问题入手,步步爬出Python中赋值与拷贝的坑
JS复习之深浅拷贝
  想掌握JS的深浅拷贝,首先来回顾一下JS的数据类型,JS中数据类型分为基本数据类型和引用数据类型。
huofo
2022/03/18
4410
JS复习之深浅拷贝
js数组的拷贝赋值复制-你真的懂?
在看react-native性能优化的时候,看到如何避免shouldComponentUpdate的异常数据时,脑内一阵风暴,从而牵连出一连串的问题,于是有了这一篇关于js数组的复制(深浅拷贝)与赋值等为何能产生异常数据的文章。 有什么问题欢迎指正 现在进入正题: 首先异常数据的产生在于我们在复制赋值时,会有或没有改变到本身的值。 一、push与concat push的定义是:像数组末尾添加一个或更多元素,并返回新的长度。该方法会改变数组的长度。 concat的定义是:连接两个或更多的数组,并返回结果,该方
IT架构圈
2018/05/31
5.2K0
python学习笔记:第7天 深浅拷贝
join方法是把一个列表中的数据进行拼接,拼接成字符串(与split方法相反,split方法是把一个字符串切割成列表)
py3study
2020/01/20
4250
学习Python一年,这次终于弄懂了浅拷贝和深拷贝
话说,网上已经有很多关于Python浅拷贝和深拷贝的文章了,不过好多文章看起来还是决定似懂非懂,所以决定用自己的理解来写出这样一篇文章。
宇宙之一粟
2020/10/26
7240
学习Python一年,这次终于弄懂了浅拷贝和深拷贝
Python|赋值、浅拷贝与深拷贝
在python中一个变量可以说是内存中一个对象的‘标签’或者‘引用’。假设现在有一个变量a。
算法与编程之美
2019/07/17
7370
相关推荐
Python深浅拷贝
更多 >
LV.5
这个人很懒,什么都没有留下~
目录
  • 访谈人物介绍
  • 精彩观点
  • 访谈实录
    • 大模型人才如何定义?
    • 大模型人才应当具备的能力要素
    • 大模型人才的培养方式
    • 国内大模型人才市场的发展情况
    • 大模型人才的培养难题
    • 大模型人才和AI企业的未来发展趋势
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档