首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我的秋招经历

刷题的内容主要是行测,行测全称为行政职业能力测试,是几乎所有国企和公务员考试都会考的内容。行测里分很多内容,例如小学数学题、小学语文题、资料分析、常识题等等。...这里列几个我参加过的算法竞赛网站: 首先是Leetcode,它的优点在于有中文,并且题目风格也类似私企笔试题。...缺点是一周只有两次比赛,并且其中一次的时间还是晚上非常晚的时候,因此对于我来说相当于一周只有一次,次数太少 其次是牛客网,它的缺点是比赛题目都是由acm选手出的,因此质量参差不齐,并且题目描述也不是很规范,和私企笔试题的风格也不太像...实际上我的整个秋招过程所有环节都在为中石化做准备,前期刷题我买的是中石化的书,参加其他企业的笔试也是为了测试自己的做题速度,为中石化笔试做准备,参加其他企业的面试也是为了锻炼自己的脸皮,顺便锻炼自己谈吐

4.6K51

常见的大模型评测数据集

GSM8K 是一个高质量的英文小学数学问题测试集,包含 7.5K 训练数据和 1K 测试数据。这些问题通常需要 2-8 步才能解决,有效评估了数学与逻辑能力。...表述为带有二元选项的填空任务,目标是为需要常识推理的给定句子选择正确的选项。...发布的 164 个手写的编程问题,包括模型语言理解、推理、算法和简单数学等任务 BBH https://huggingface.co/datasets/lukaemon/bbh 布尔类型的表达式推理判断...CMMLU 是一个包含了 67 个主题的中文评测数据集,涉及自然科学、社会科学、工程、人文、以及常识等,有效地评估了大模型在中文知识储备和语言理解上的能力。...一个特点是所有问题均来源是当地的真实人类试题,所以包含了特定的文化背景,要求模型不仅是能理解语言,还需要对背景知识有所掌握。 中文部分也公开了图片类试题,可以测试中文多模态模型。

4.9K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

    机器之心专栏 机器之心编辑部 本文提出了 M3KE 基准数据集,以零样本、少样本形式测试中文大模型对于多级多学科知识的掌握能力。...传统的中文评测基准主要关注模型对于简单常识(如雨天出门需要带伞)和表层语义(如篮球比赛的报道是体育类还是科技类新闻)的理解能力,而忽略了人类复杂知识的挖掘和利用。...为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。...这些学科注重对文学和文化文物的分析和解释等,以小学语文为例,考试题目旨在评估 7 至 13 岁学生的语言运用和文学欣赏能力,如使用同义词和反义词的能力。历史学科则涵盖从古代到现代的中国和世界历史。...如中国公务员考试涉及常识、人文、逻辑等知识,因此研究人员将这些任务视为对中文大模型综合知识的评估。 中国公务员考试任务示例: 以前有几项研究表明,食用巧克力会增加食用者患心脏病的可能性。

    49520

    由一道让99%的程序员抓狂的招聘认知题说起认知测验的合理性设置

    ,而那些文字推理,也是考察抓取信息、进行判断、逻辑操作的能力,但是请记住的是测评的结果永远只能做一个参考,凡有测评必有误差,这种误差的来源是各种各样的,有来自于作答环境、有来自于作答者当时状态、有来自于试题本身...作者咨询华为的高级招聘经理,如何定义所谓的“天才少年”,是不是要做智商测试?该经理大概的意思,能力表现出来的才是能力,而不是看他未来可能是天才。...而用认知测验考察人的潜力,在国内吃螃蟹的是公务员考试,但是公务员考试考察的是行政能力潜质,也就是候选人在行政岗位上的潜力,通过逻辑思维测试考察候选人对事物规律的认识,这在行政事务中确实重要。...按照当事人的描述,是某知名视频企业的招聘测试题,按照截图信息应当是国内某知名测评公司提供的试题。 ?...以上提到了非正常的认知题,而在招聘中,特别是对于校招来说,认知测验可能是必做的试题。那么,我们该如何准备这种测试呢?

    74220

    国企和银行:面试都问些啥?如何准备?

    很少公司有编程题或者难度很低 那么对于非互联网公司的笔试题可以从哪些方面准备?...主要复习图形判断,数学计算(不用全部做,选择几个找找感觉即可) 淘宝或者学校二手书店就有 而且这段时间很多人在准备公务员考试,也方便大家对于不太清楚的推理题进行提问 这里关于行测题,说说我所知道的上分技巧...而且银行笔试题量比较大,一般来说至少40个选择+5篇阅读,而且时间有限,所以大家一定注意把握时间。...二 真实面经 1 气象局 笔试为纸考,考题不像银行那种题目,涉及的内容包含了政治,国情,省情等,当然少不了常识题,其中包含生活常识,地理常识等 题量不多,选择+填空,笔试完筛选一部分第二天进行面试 面试形式采用结构化面试...讨论过程中学习总结和归纳大家的观点,在剩余的时间进行补充,这样你的组织能力得以体现 上面不是说了推荐一个人去展示?

    1.3K31

    Aristo | 智能程序参加美国四年级考试

    Aristo 由西雅图艾伦人工智能研究所研发,是一款能够感知人类社会常识的人工智能软件。而衡量它效果最好的方式,就是用适用于学龄儿童的测试来进行检测。...如果我们想研发出更加强大的系统来协助工作,那学习常识将是这些系统所必需的能力。...为机器学习常识能力设定标准很有用,但也有人认为,学校测试不是个好法子。...机器和人类所不擅长的事物是非常不一样的,适于人类的标准化测试,并不能很全面地覆盖机器软件所面临的难点问题。 更好的选择是专门为机器软件拟一份试题。...不过,尽管学校的测试题不会直接检测常识,但是却间接地要求具备这些常识。因为读懂这些问题就需要常识,只有采用适用于人类的测试题,我们才能说我们是以自己的标准在衡量机器软件。

    616120

    面试中的这些坑你踩过吗

    深信服HR张望 :这个问题很常见,但最能有效反映一个人生活历程的深度和广度,并能进一步判断出你思想的深度和你的悟性。对生活不加以思考的人,往往也不会对工作予以思考。...如:学生仅仅只能答出来类似因高考/考研未能考入满意的学校而郁闷好长一段时间,那就很容易判断这个学生是一个经历单纯、对逆境没有承受力的人。...面试题Q5:在完成某项工作时,你认为领导要求的方式不是最好的,自己还有更好的方法,你应该怎么做? H省公考面试组组长:问题剖析 :公务员或者国家企事业单位人员既是一份工作,又带着一种特殊的使命。...所以,这道面试题的核心是要表现原则性。 国家公务员是为人民服务的,每一个决定,每一项工作都涉及人民群众的最根本利益。是否代表最广大人民群众的根本利益就是原则性。...给出的建议如下: 1、了解面试企业招聘岗位的要求及企业所处行业的现状和发展如何; 2、了解自己本身素质及能力与岗位及职业的发展规划的匹配度; 3、了解企业提供的其他福利(如:培训、晋升、薪酬发展、食宿、

    33720

    面试中的这些坑你踩过吗

    深信服HR张望 :这个问题很常见,但最能有效反映一个人生活历程的深度和广度,并能进一步判断出你思想的深度和你的悟性。对生活不加以思考的人,往往也不会对工作予以思考。...如:学生仅仅只能答出来类似因高考/考研未能考入满意的学校而郁闷好长一段时间,那就很容易判断这个学生是一个经历单纯、对逆境没有承受力的人。...面试题Q5:在完成某项工作时,你认为领导要求的方式不是最好的,自己还有更好的方法,你应该怎么做? H省公考面试组组长:问题剖析 :公务员或者国家企事业单位人员既是一份工作,又带着一种特殊的使命。...所以,这道面试题的核心是要表现原则性。 国家公务员是为人民服务的,每一个决定,每一项工作都涉及人民群众的最根本利益。是否代表最广大人民群众的根本利益就是原则性。...给出的建议如下: 1、了解面试企业招聘岗位的要求及企业所处行业的现状和发展如何; 2、了解自己本身素质及能力与岗位及职业的发展规划的匹配度; 3、了解企业提供的其他福利(如:培训、晋升、薪酬发展、食宿、

    99930

    2022,测试必须掌握的5大能力(内含高频面试题及用例万能模板)

    遇到发版或者其他什么突发情况,测试照样跟着开发一块儿加班加点,但薪资、受重视程度测试却远远比算不上开发。这是普通测试面临的困境。...从能力提升到就业全流程覆盖,这样的服务市面上还是很少见的。...,你将会学习到:互联网测试技术体系、分层测试策略、自动化测试策略、持续交付与 DevOps 体系、测试左移体系、测试右移体系、精准测试体系等。...在服务端测试体系部分,会重点讲解接口协议抓包分析与 Mock、接口自动化测试、服务端性能测试、接口安全测试。...测试平台开发:这部分先带你理解测试平台的价值与体系,然后掌握从0到1实现测试平台的后端开发能力

    40920

    重磅 | 美国西北大学新系统在智力测试中超越75%民众,人类的推理能力也不及AI了?

    你听过瑞文氏标准推理测试(Raven’s Progressive MatriCES)么?上面这张图就是一道标准的瑞文氏测试题目,是不是很眼熟?在公务员考试、一般的智力测试中我们经常看到它。...团队负责人,来自西北大学McCormick工程学院的Ken Forbus教授对此表示:“模型在智力测试中的表现优于75%的美国大众,这意味着人工智能的逻辑推理能力已经高于人类的平均水平,起码在测试题中如此...他认为,虽然模型的智力测试成绩超过了75%的人类,但这并不能说明计算机的智力真的就超过了人类。因为除了推理之外,智力的含义应该更复杂,比如还包括学习能力、数学计算能力等。...当前,人工智能系统对图像和语音的识别能力已经相当出色,但对于语义和图像含义的理解、推理能力仍有待提高。...你觉得开头的测试题应该选哪个答案?不妨留言告诉我们吧。 via tomshardware

    99850

    27岁女生零基础转行软件测试,合适吗?

    我觉得这行真的工资高,入行六七千 我工作几年都还不到,我是3-5千 我现在有3个选项,比较迷茫 1.本专业考编制公务员 2.继续干会计 3.转行软件测试 我现在有2个问题: 问题一:如果是转行,怎么说呢...第一阶段 QC 这个实际上是高中生都会的,俗称点点点,只要掌握一些理论基础,以及面试题和技巧就可以,一般3到6个月时间足够了 1、熟悉理解业务 2、学一些软件测试和软件开发基础知识 3、找一些系统的bug...,记录提交给开发修复 第二阶段 QA 自动化测试测试框架工具开发,测试平台开发,测试管理经理,软件质量保证,全面质量效能提升。...择业没绝对的对错,试错要尽早,有时候适当坚持也是必要,我一大学同学,计算机专业能力不行,但是体育可以,跑过长沙市马拉松优秀运动员,后面找工作只能找个健身教练,他又不想做。...后来又接着考公务员警察,考了很多地方,长沙,江西,东莞,最后东莞考上了,现在同学中就他混的最好。

    42620

    量化分析机器与人类智慧

    图灵测试经常用来检验机器是否具备人的智能,但图灵测试受人为因素干扰太多,严重依赖裁判者和被测试者的主观判断,而且只判断机器是否具备了人的智能,但机器与人类智慧的差距和变化速度并不能得到定量的分析。...因为目前机器智力发展还很不完善,不能完全套用对人的智商测试。几乎没有任何机器系统能够完成人类智商测量的操作能力测试,因此我们需要吸收以上智商测试量表的优点,设计新的智力评价体系和建立测试题库。...机器与人类通用智力量表(M&H IQ) 1 知识获取能力 识别文字的能力,识别声音的能力,识别图片的能力 2 知识掌握能力 常识(天文,地理,历史,物理,,,,),翻译,计算,...3.世界搜索引擎排名与机器智慧的弱点 根据机器与人类通用智力量表,可以建立机器与人类通用智商测试题库(因为篇幅问题,本文不进行详细介绍),2014年5月我们利用这个测试题库对全世界50个搜索引擎和3个不同年龄阶段的人类群体进行测试得到结果如下...从上述研究还可以看出智能或智力是由不同的因素组成,例如天文,地理,历史等常识,数学计算,语言翻译。

    54660

    原创成果丨E-KAR:首个中英双语可解释类比推理数据集

    知识工场实验室与字节跳动人工智能实验室等机构合作构建了首个可解释的知识密集型类比推理数据集E-KAR,由 1,655 个(中文)和 1,251 个(英文)来自中国公务员考试的问题组成,并提出了类比推理问题的两个基准任务...挑战性 E-KAR 具有挑战性,因为它来源于中国的公务员考试,这是一项对考生的批判性思维和解决问题能力的综合测试,想要解决其中的类比推理问题,需要考生理解选项中的关系,这要求一定的推理能力和背景知识,特别是常识...这些类型的关系通常需要大量的常识和事实知识的参与。 图 7 类比推理问答任务 (QA) 错误分析 2....由于许多解释含有否定词,研究者探讨否定词的生成是否影响了模型的判断,为此该研究删除了测试集中含有否定词 NOT 的句子,结果发现准确率只下降了一点。...E-KAR 数据集中很多题目依赖于外部知识,需要对常识、百科和文化知识有一定理解,因此如何注入外部知识提升推理能力是未来的一大方向。

    50110

    直击高考人机大战:技术、争议与人族胜利

    其次是构建模拟器,用来模拟人类世界中的知识图谱和常识。对于学霸君来说,具体就是利用K12中数学应用题数据,让机器模拟“习”得知识图谱和常识,逐步提升其对于真实世界的接近程度。...其次,要确保在测试之前机器是没有办法获取任何题目相关内容,也就是说需要“同步”进行,而不是考试试题已然公开的情况下。 第三,在整个处理过程中,要有完全可监督的第三方,符合公正性。...科大讯飞方面还解释称,同属863计划中“高考机器人”研发的“AI-MATHS”,除了自身研发能力,也和电子科技大学数学攻关组保持对接,目前机器解答数学应用题方面,因为涉及常识理解的问题,仍是最大挑战所在...类似的领域都需要让机器预先对一些行业知识拥有理解,同时基于这个理解的结果,能够做一些决策判断、一些相关问题的回复。 当然,讯飞方面还向量子位提供了一种此前鲜被提及的意义——图灵测试。...如果把高考看作衡量人的知识水平、理解能力、推理能力等相关智能能力水平的测试工具,那显然借此衡量人工智能的能力,也可以接受。

    86650

    ACL 2022|复旦、字节等推出首个可解释类比推理数据集,中英双语

    E-KAR 是首个可解释的知识密集型类比推理数据集,由 1,655 个(中文)和 1,251 个(英文)来自中国公务员考试的问题组成,并提出了类比推理问题的两个基准任务,用于教会和验证模型学习类比的能力...挑战性 E-KAR 具有挑战性,因为它来源于中国的公务员考试,这是一项对考生的批判性思维和解决问题能力的综合测试,想要解决其中的类比推理问题,需要考生理解选项中的关系,这要求一定的推理能力和背景知识,特别是常识...这些类型的关系通常需要大量的常识和事实知识的参与。 图 7 类比推理问答任务 (QA) 错误分析 2....由于许多解释含有否定词,研究者探讨否定词的生成是否影响了模型的判断,为此该研究删除了测试集中含有否定词 NOT 的句子,结果发现准确率只下降了一点。...E-KAR 数据集中很多题目依赖于外部知识,需要对常识、百科和文化知识有一定理解,因此如何注入外部知识提升推理能力是未来的一大方向。

    59930
    领券