首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据分析了1382份简历:女性求职被拒率,是男性的5.6倍

大数据分析了1382份简历:女性求职被拒率,是男性的5.6倍

作者头像
BestSDK
发布于 2018-03-02 03:07:48
发布于 2018-03-02 03:07:48
1.2K0
举报
文章被收录于专栏:BestSDKBestSDK

大数据的方法来衡量职场的性别不平等

在科技业,求职时的性别不平等一直是个重要话题。但针对该议题,在实际操作层面却鲜有基于大数据的系统性研究。

对于那些拥有大量数据的企业来说,缺乏一个严格而科学的系统很容易导致人力资源部门仅仅根据道听途说来推测性别不平等问题产生的原因,而忽略了真正的根源。

为了这个目的,本文提出了一种可重复地用来评价求职性别不平等的系统研究方法,并且附带使用这种方法进行评价的案例。

样本和研究方法:基于1382份简历的数据分析

这次研究中用到的是一个数据工程师职位的1382名求职者的简历数据,其中1029人为男性,占74.4%,353为女性,占25.5%。

需要指出的是,因为不知道这些求职者的性别,因此上述性别人数和比例是基于求职者的姓名和Atipica公司的性别预测模型得到的,总的准确率可以达到96%,但会产生4%的误差。在后续的分析中,这一误差也可能会有所影响。

而求职者的职业技能也由Atipica公司的技能映射模型获得。

首先,我们需要明确的是,如何通过指标来衡量性别不平等?

通过比较特定职位的男女求职者的被拒比例,我们可以确定是否存在潜在的性别不平等,因为在其他条件相同的情况下,理论上被拒比例应该是接近的。

在这项研究中,我们通过比较在审查求职申请阶段的被拒率来衡量不平等。选取这个阶段的原因主要有以下两个:

审查求职申请通常对于之后的进一步考察影响最大。我们发现约90%的求职者在这个阶段会被拒。

那么在审查求职申请阶段产生的被拒率的差异都可以被归结为:

  • 客观因素:工作经验、教育背景和技能体系。
  • 主观因素:被认为教育背景不符合、被认为工作经验不符合、故意或者非故意的偏见。

由于主观因素的本质,它本身是不可控的,所以我们把研究对象限定在客观因素。

我们基于以下假设对统计数据的显著性做了测试:

在测量显著性过程中,我们必须要考虑到两类误差。一是样本误差,二是性别预测的误差(4%)。考虑到性别预测误差,我们放弃了T检验这类传统参数测试,而改用了置换测试并且配合蒙特卡洛方法,在每次重复测试中都在男性和女性中做了4%的样本交换,并且验证了重复性假设。

数据分析:男性和女性技能相差不大,但女性被拒率更高

被拒率的差异

(图片说明:男女求职者的被拒比例)

男性和女性的被拒率分别为83.0%和88.6%,女性比男性高出5.6个百分点,这个偏差在统计上表现出显著性(p=0.03)。紧接着作者评估了各项客观因素在偏差显著性上起的作用。

技能总数量上的差异

(图片说明:男女求职者职业技能数量的分布)

女性求职者简历上平均罗列96项技能,男性求职者简历上平均罗列93项技能。根据上图所显示出来的情况,技能数量的平均数和中位数相差不大。

可以发现,尽管在技能平均数量上存在差异,但这种差异一方面小到不存在实际影响,另一方面在统计显著性上也不显著(p=0.38)。

技能体系上的差异

(图片说明:职业相关技能的分布)

为了查明技能体系上的差异,我们根据技能映射模型找出了34项核心技能,并把我们从简历里挖掘出来的技能进行比较。上图显示了一些技能在简历中呈现的比例,例如,不论男女,约80%的求职者都在简历中提到Java。

通过定性分析,我们可以看出技能分布在男女求职者上区别不大。

定量分析男女求职者在技能集合上的相似性,我们可以看出分布的标准差。

我们用 Aᵢ和Bᵢ分别表示掌握技能i的男女求职者比例,例如,A_java = 0.8并且B_java = 0.8。则n种技能的总平均偏差比例为:

这就意味着,平均来看,对于每一项技能,男性掌握该技能的比例都要高于女性掌握该技能的比例2.2个百分点,偏差并不大。

偏差的百分数看上去直观,但缺点是我们并不知道相对偏差。我们进一步利用平均数标准化偏差计算相对偏差:

在标准化之后,技能集合上男女求职者的偏差为5.3% —— 换句话说技能集合上94.7%都是一样的。

5.3%的偏差虽然小,但也可能影响巨大,尤其是如果这种差异体现在核心技能上时。

为了搞清楚这个问题,我们运用置换测试/蒙特卡洛法计算了男女求职者在特定技能掌握比例上的偏差。比如,如果50%男性和53%女性都会“hadoop”,我们就要计算这3%的差异是不是显著。

结果发现,在剩余的33项技能中,只有SQL和统计两项技能显示出性别差异性,而且这两项都是女性的掌握程度高于男性。

大体上,我们可以说在技能的大多数方面男女之间不存在差异,而SQL和统计上又是女性有显著的优势。

工作经验上的差异

下表列出了男女求职者工作年限的平均数和中位数,值得注意的是职位要求并不包含工作年限。

我们发现工作年限上只有半年的差异,尽管在差异上表现出显著性,但在实际录用的层面上并没有什么实际意义,很少有公司会把半年经验的缺失作为拒绝的主要因素。

教育背景上的差异

下表列出了求职者最高学历的分布情况(百分比),职位的要求是理工科本科或者硕士毕业生。

女性求职者比男性求职者在高学历中所占比例更高,82.7%的女性求职者拥有硕士及以上学历,只有69.9%的男性求职者拥有同等学历。这方面的差异非常显著。

结论

从上面的研究可以发现,女性求职者在被拒率上高出男性求职者5.6个百分点,尽管女性拥有高学历的比例更高、工作年限上和技能体系上也没有实际意义上的差异。

当然,如果仅仅根据上面的实验结果就得出“被拒率上的差异是因为有意或者无意的偏见”的结论,还缺乏充分的理由。但考虑到在实验中至少已经排除一些客观因素的影响,那么有理由相信这种差异更有可能是来自于主观因素的影响。

研究的局限性

当然,需要指出的是,本次实验还具有一些局限性:

经验和教育背景的含金量

尽管工作经验和教育背景是简历审查的一个基准线,但其中的含金量却是极其关键的因素,甚至影响到能否通过简历审查。然而,这方面又太主观并且难以控制。

技能不是纸上谈兵

我们仅仅根据技能一栏填写的情况来考虑,那么会造成一个熟练掌握该技能并有5年经验的求职者和一个刚会一点的菜鸟求职者没什么区别的情况。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BestSDK 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
你猜的没错,这段有声书并非来自某个专业制作团队,而是一个 AI 模型 Seed-TTS,而这个模型则是来自字节跳动的 Seed Team。
机器之心
2024/06/27
5970
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
配音涉及为视频中的对话添加正确的人类声音,确保与角色的唇部动作同步,并传达场景中的情感。它在电影、电视、动画和游戏中发挥着至关重要的作用,增强了沉浸感,并有效传达情感和氛围。现有的配音方法可以分为两类,这两类都专注于学习不同风格的关键先验信息以生成高质量的声音。第一类专注于学习有效的说话人风格表示[7, 15, 23, 60]。第二类旨在利用给定视频输入的视觉信息来学习适当的韵律[15, 25, 37, 70]。然而,这些先验信息的准确性不足以满足现实场景中电影配音的需求。例如,针对不同类型(如对话、旁白和独白)以及细粒度属性(如期望的年龄和性别)的自适应配音尚未得到充分研究[17, 25]。
AIGC 先锋科技
2025/05/22
1430
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
分享一个效果非常不错的TTS,一个完全非自回归的TTS模型,实现了 SOTA 零样本 TTS 性能。
AI进修生
2024/12/02
7500
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
【论文复现】VALL-E:语音合成的新里程
语音合成技术在现代通信和娱乐领域扮演着愈发重要的角色,它不仅让我们能够与机器更自然地交流,还在无障碍技术和虚拟助手等方面发挥着关键作用。近期,一个引人注目的语音合成模型——VALL-E,突破性地采用了全新的方法,为语音合成技术的未来开启了新的里程碑。
Eternity._
2024/11/21
2020
【论文复现】VALL-E:语音合成的新里程
微软NaturalSpeech 2来了,基于扩散模型的语音合成
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。多年来,微软亚洲研究院机器学习组和微软 Azure 语音团队持续关注语音合成领域的研究与相关产品的研发。为了合成既自然又高质量的人类语音,NaturalSpeech 研究项目(https://aka.ms/speechresearch)应运而生。 NaturalSpeech 的研究分为以下几个阶段: 1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,
机器之心
2023/05/16
1.4K0
微软NaturalSpeech 2来了,基于扩散模型的语音合成
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。
机器之心
2025/05/17
2790
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下,DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证,其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开可用的网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,这是近端策略优化(Proximal Policy Optimization,PPO)算法的一个变体,它在增强数学推理能力的同时,还能优化 PPO 的内存使用。
AI浩
2025/06/08
1920
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
VALL-E vs. Spark-TTS:两代零样本 TTS 模型横评
零样本文本转语音(Zero-Shot TTS)技术近年出现突破。微软于 2023 年发布的 VALL-E 模型仅需 3 秒语音示例便可克隆说话人声音,刷新业界对数据门槛的认知。随后开源的 Spark-TTS 进一步在更小模型上实现了近似甚至更优的效果(Ai Voice Cloning-以3秒音频就可克隆著称的网站就是宣称在此模型基础上自研),并原生支持多语言与细粒度可控。作为一名语音 AI 开发者,我将从架构原理、音质保真、推理效率、训练成本与实现复杂度五个维度,客观比较这两代代表性模型,探讨它们在语音克隆发展中的阶段性定位。
用户11657403
2025/05/14
3040
2019深度学习语音合成指南(下)
作者提出了一种全卷积字符到谱图的框架,可以实现完全并行计算。该框架是基于注意力的序列到序列模型。这个模型在LibriSpeech ASR数据集上进行训练。
AiTechYun
2019/12/23
9660
2019深度学习语音合成指南(下)
突破性语音合成技术!Spark-TTS:用大模型打造你的专属AI语音助手
你是否想过,未来的语音助手不仅能“说话”,还能根据你的需求调整音色、语速甚至情绪?近日,一项名为Spark-TTS的突破性技术横空出世,它基于大语言模型(LLM),将文本转语音(TTS)技术推向了全新高度!今天,我们就来揭秘这项“会思考的语音合成黑科技”。
AI浩
2025/03/17
2.5K0
突破性语音合成技术!Spark-TTS:用大模型打造你的专属AI语音助手
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
3.9K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
2019深度学习语音合成指南
还记得我们前几天发出文章《百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌》吗?本篇文章我们将讲述 2019年深度学习语音合成的一些进展,其中有多篇工作来自百度研究院或百度硅谷人工智能研究院。
AI科技评论
2019/09/04
1.4K0
2019深度学习语音合成指南
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
---- 新智元报道   编辑:LRS 【新智元导读】微软新模型VALL-E实现地表最强zero-shot语音合成,刚开口声音就被偷了? 让ChatGPT帮你写剧本,Stable Diffusion生成插图,做视频就差个配音演员了?它来了! 最近来自微软的研究人员发布了一个全新的文本到语音(text-to-speech, TTS)模型VALL-E,只需要提供三秒的音频样本即可模拟输入人声,并根据输入文本合成出对应的音频,而且还可以保持说话者的情感基调。 论文链接:https://arxiv.org
新智元
2023/02/24
1.1K0
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
Spark-TTS: AI语音合成的"变声大师"
嘿,各位AI爱好者!还记得那些机器人般毫无感情的合成语音吗?或者那些只能完全模仿但无法创造的语音克隆?今天我要介绍的Spark-TTS模型,可能会让这些问题成为历史。想象一下,你可以让AI不仅说出任何文字,还能控制它是用男声还是女声,高音还是低音,快速还是缓慢...听起来很酷,对吧?那就跟我一起来看看这个语音合成界的"变声大师"吧!
martinzh7
2025/06/02
3510
Spark-TTS: AI语音合成的"变声大师"
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
在我们日常生活中,语音助手已经变得越来越普遍。无论是苹果的Siri还是小米的小爱同学,它们都在以惊人的速度渗透到我们的日常生活中。这些语音助手不仅能够帮我们查询天气、设定闹钟,还能与我们进行对话,提供个性化的建议和服务。我们不禁要问,这些智能语音助手是如何做到如此智能、自然地与我们交流的?
AI研思录
2025/02/20
1.5K0
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。
机器之心
2025/05/27
1590
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
每周AI论文速递(250512-250516)
我们提出 Seed1.5-VL,这是一个旨在提升通用多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 包含一个 5.32 亿参数的视觉编码器和一个 200 亿激活参数的专家混合 (Mixture-of-Experts, MoE) 大语言模型。尽管其架构较为轻量,但该模型在广泛的公共 VLM 基准测试和内部评估集中展现出卓越性能,在 60 个公共基准测试中的 38 个上取得了业界领先性能。此外,在 GUI 控制和游戏玩法等智能体任务中,Seed1.5-VL 的表现优于包括 OpenAI CUA 和 Claude 3.7 在内的主流多模态系统。除了视觉与视频理解能力外,该模型还具备强大的推理能力,使其在视觉谜题等多模态推理挑战中表现尤为突出。我们相信这些能力将支持更广泛的任务应用。本报告详细总结了我们在模型设计、数据构建及各阶段训练过程中构建 Seed1.5-VL 的经验,希望这份报告能推动相关领域的进一步研究。Seed1.5-VL 现已通过 https://www.volcengine.com/ 开放访问(火山引擎模型 ID:doubao-1-5-thinking-vision-pro-250428)。
叶子的技术碎碎念
2025/05/18
1180
每周AI论文速递(250512-250516)
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。
机器之心
2025/04/22
1870
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
一键体验自然流畅的ChatTTS语音合成,ChatTTS突破开源语音天花板
最近,一个名为 ChatTTS 的文本转语音项目突然火了起来,吸引了大家的广泛关注。
一个程序猿的异常
2024/06/17
8560
一键体验自然流畅的ChatTTS语音合成,ChatTTS突破开源语音天花板
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。
LiveVideoStack
2020/05/08
1.4K0
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
推荐阅读
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
5970
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
1430
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
7500
【论文复现】VALL-E:语音合成的新里程
2020
微软NaturalSpeech 2来了,基于扩散模型的语音合成
1.4K0
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
2790
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
1920
VALL-E vs. Spark-TTS:两代零样本 TTS 模型横评
3040
2019深度学习语音合成指南(下)
9660
突破性语音合成技术!Spark-TTS:用大模型打造你的专属AI语音助手
2.5K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
3.9K0
2019深度学习语音合成指南
1.4K0
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
1.1K0
Spark-TTS: AI语音合成的"变声大师"
3510
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
1.5K0
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
1590
每周AI论文速递(250512-250516)
1180
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
1870
一键体验自然流畅的ChatTTS语音合成,ChatTTS突破开源语音天花板
8560
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
1.4K0
相关推荐
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档