首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

hive面试必备题

业务数据特性:某些特定业务逻辑导致数据集中在特定的Key上。 SQL语句造成数据倾斜:错误的Join或分组条件可能导致大量数据集中到少数Reducer上。 解决方案 1....Map Join:对于大表和小表的Join,使用Map Join可以将小表加载到每个Mapper的内存中,减少数据通过网络传输。...外部表:删除外部表时,Hive仅删除表的元数据,而表中的数据仍然保留在HDFS上的原位置。这是因为Hive认为外部表的数据可能被其他应用或查询所使用。 c....外部表适用于:需要在多个服务或应用间共享的数据。当数据由外部程序产生并管理,且在Hive之外还要被其他应用访问时,应该使用外部表。 d....对于需要长期和跨应用共享的数据,推荐使用外部表。 内部表适合临时分析任务,数据处理完成后,表和数据一起删除,便于管理。 删除外部表前,需要明确这一操作仅移除元数据,而数据仍然保留在HDFS上。

50510

Hive面试题持续更新【2023-07-07】

当删除外部表时,只删除表的元数据,而不会删除实际的数据文件。 应用场景:外部表适用于需要与其他数据处理系统进行集成的场景。...应用场景:桶表适用于需要根据某个或多个列的值对数据进行聚合操作的场景。例如,在大数据集上进行连接操作时,使用桶表可以减少数据的移动和网络传输,提高连接操作的效率。...开窗函数与分组函数类似,都可以对数据进行分组处理,但开窗函数能够在每个分组内部的行上执行计算,而不是返回单个聚合值。...使用RANK函数计算学生成绩的排名,以了解每个学生在班级中的表现。 使用NTILE函数将销售数据划分为几个相等的桶,以便进行数据分析和比较。...使用随机前缀或哈希函数: 在某些场景下,如果数据倾斜发生在某个字段上,可以通过在该字段上添加随机前缀或使用哈希函数来均匀分布数据,减少数据倾斜的影响。

12910
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    中美程序员不完全对比

    代码质量 4.工作氛围 5.工作之外 ---- 分享一篇国内外程序员区别对比的好文,原文作者是知乎的一位匿名用户。个人感觉绝大部分内容写的还是挺中肯的,没有故意贬低或者抬高哪一边。...对这老头印象深刻,是因为他逻辑清晰、思路锐利,他是 code review 小组的成员,经常在邮件里破口大骂其他人写的代码写得有多烂,被投诉,只好在邮件里道歉,过几天继续骂,在我工作的两年里一直循环。...我国公司: 回国之后我现在工作的公司,员工平均年龄在 30 岁以下。年纪大的都去哪里了呢?极少数在管理层。...4.工作氛围 美国公司: 老美的公司确实比较尊重员工,在员工关怀上做得比较好。我可以感受到,和领导职位不同,但是我们人格是平等的,彼此尊重。...相比之下离职率高太多了,每个月都有几个认识的同事离职,跳槽的、转行的、回老家躺平的。 除了领导们,几乎每个人看起来都很焦虑,都想着退路,想着搞点什么副业。

    22230

    这是Meta版ChatGPT雏形?开源、一块GPU就能跑,110参数量打败GPT-3

    而且,在实际应用中,更多的参数会占用更多的空间,并且需要更多的计算资源来运行,导致大模型应用成本居高不下。因此,如果一个模型可以用更少的参数获得与另一个模型相同的结果,则表示效率显著提高。...(LLMs)已经显示出它们有能力从文本 prompt 或少数样本中执行新的任务。...研究者使用了一个标准的优化器在大量的文本数据上训练大型 transformer。 预训练数据 如表 1 所示,这项研究的训练数据集是几个来源的混合物,涵盖了不同的领域。...对于大多数训练数据,每个 token 在训练期间只使用一次,但维基百科和 Books 域除外,我们在这两个域上执行大约两个 epoch。...在这个基准上,他们观察到 LLaMA-65B 在大多数领域都落后于 Chinchilla70B 和 PaLM-540B 平均几个百分点。

    77960

    GEO数据挖掘—1

    (四)主成分分析(PCA图)主成分分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。...图上的点代表样本(中心点除外),点与点之间的距离代表样本与样本之间的差异。点与点之间的距离越大,代表样本与样本之间的差别越大。...实践中的应用二、GEO背景知识和表达芯片分析思路(一)表达数据实验设计实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象有差异的材料——差异基因——找功能/关联——解释差异,缩小基因范围(...(GSE)平台:用户测定表达量使用的芯片/平台(GPL)分析思路(1)找数据,找到GSE编号(2)下载数据(用R语言的代码可以下载,从中找到两个信息,一个是表达矩阵,一个是临床信息(分组信息))(3)数据探索...富集分析使用的数据框——KEGG数据库/GO数据库理解GeneRatio / BgRatio富集分析是衡量每个通路中的基因在差异基因里是否足够多。富集分析的可视化:气泡图,柱状图

    72901

    HBase2.0新特性详解 顶

    准备1:HBase表认领,找到所有表的读写应用与业务方; 准备2:HBase2.0新集群部署,并打通到所有读写应用服务器的网络; 调试3:测试环境调试应用,确认能正常使用HBase2.0集群; 调试4:...开发数据校验工具,对迁移后新老集群数据进行完整性校验; 迁移5:所有表双写工程上线,并确认新老集群写入数据一致; 迁移6:所有读取应用变更,迁移到新集群,确认读取正常; 收尾7:老集群写入工程停止,表禁用半个月...整体上来看,AMv2去除了 Zookeeper 依赖,有清晰明了的 region transition 机制,代码的可读性更强,非常有效地解决了RIT现象。...这就是2.0的新特性:In-memory Flush and Compaction ,而且该特性在2.0版本中已被默认启用(系统表除外)。...写链路的offheap包括以下几个优化: 1. 在RPC层直接把网络流上的KeyValue读入offheap的bytebuffer中; 2. 使用offheap的MSLAB pool; 3.

    88210

    精选Hive高频面试题11道,附答案详细解析(好文收藏)

    )及存储数据;删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除。...Hive 0.8版本后引入bitmap索引处理器,这个处理器适用于去重后,值较少的列(例如,某字段的取值只可能是几个枚举值) 因为索引是用空间换时间,索引列的取值过多会导致建立bitmap索引表过大。...每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键; c. 以事实表为核心,维表围绕核心呈星形分布。 2. 雪花模型 ?...为什么要对数据仓库分层 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。...SQL优化 大表对大表:尽量减少数据集,可以通过分区表,避免扫描全表或者全字段; 大表对小表:设置自动识别小表,将小表放入内存中去执行。 Hive优化详细剖析可查看:Hive企业级性能优化

    1.1K10

    比pandas更快的库

    pandas为什么慢 由于底层的numpy数组数据结构和C代码,pandas库已经相当快了。然而,默认情况下,所有Python代码都在单个CPU线程上运行,这使得pandas运行慢。...当使用默认设置运行pandas代码时,大多数CPU内核都不做任何事情,只有少数在工作(大体上只有9%的CPU在工作)。 使代码运行更快的一种方法是同时使用多个CPU核,即多处理。...3.modin:使用所有可用的CPU核来运行pandas,基本上是pandas的替代品。...在100万行数据集和1000万行数据集中执行的测试中看到了类似的结果。 1.polars库在所有测试中都获胜,但apply函数除外,这里modin更快。...虽然没有测试这四个库的每个方面,但所测试的操作在数据分析工作中非常常见。结果表明,用polars替换pandas可能会将Python程序的速度提高至少2-3倍。

    1.5K30

    从运营角度看数据安全

    运营角度看数据安全 从安全运营角度来看数据安全建设的必要性,在我们呆过企业中可能会存在这样的对话 part1焦躁的安全工程师问到”你你你xxxxURL有个sql注入,赶紧看下,还有哪个应用使用这个库,表里都有哪些敏感字段...part1秋高气爽的一天SRC接到一个SQL注入,一个RCE打到应用、打到库上,安全工程师可以直接在安全中台看到这条漏洞攻击到了哪台数据库是什么级别,有什么表,有什么字段、有多少数据量,拖拽数据量是多少...、遍历集中日志存储中心,对不同的应用,不同的数据库表中存在哪些敏感数据进行自动化审计。...,该字段同时存在与哪些库表,隶属于哪几个应用。...小结 总之笔者在开展数据安全工作上踩过很多坑,总结总结,无非是受限于老三样,安全部规模,基建程度,老板关注度(是否出过事),比如在数据分散且没有统一的数据总线情况下最好不要异想天开的先去做什么权限管理,

    1.2K20

    打车巨头Uber是如何构建大数据平台?

    YARN 调度策略改进 在 Uber,我们使用 Apache YARN 来运行大部分的大数据计算负载(Presto 除外,它直接运行在专用服务器上)。...截至目前,我们已经建立了数十个 HDFS 集群和少数 YARN 集群。基于 HDFS 路由的联邦一直是我们大数据可扩展性工作的基石,它也提高了成本效率。...融合在线和分析存储 我们的很多数据集都存储在线上存储系统(无 schema 存储在闪存上的 MySQL 数据库中)和分析存储系统(存储在硬盘驱动器上的 HDFS 中的 Hive 表)中。...我们可以将这种思想应用在计算能力上吗?的确可以!这里要介绍的一项关键思想是维护作业,它们是可以在第二天甚至一周内随时发生的后台任务。...我们相信实际上还有更好的解决方案。但是,这将需要提出更精细的定价机制。我们想探讨的例子包括:每个团队可以在我们的集群上花费一种代币,或者用户可以用某种积分来提高他们的工作优先级,等等。

    68650

    数据库“炸了”,加CPU加内存?或许还有更好的解决方法!

    在我经历过的应用系统压力测试工作中发现,大厂提供的应用产品通常服务器压力和数据库压力是基本持平的,小的开发商提供的应用系统往往是服务器还没有明显压力,CPU、内存使用率都很低,数据库却已经“炸了”。...所以,我准备从产品代码、中间件、读写分离三块来讲解如何优化应用对数据库的使用,提升应用系统性能。 03 在代码层面消化数据库压力 在代码层面可以通过创建索引和转移压力两种方式给数据库减压。...在开发初期,我们就应该根据数据库模型表和字段的作用来决定是否为该表建立索引,因为索引也会降低更新表的速度,所以我们可以为数据记录较多的表中,频繁作为查询条件的字段建立索引,而经常增删改的表或字段则不适合创建索引...05 忍法——数据库分身术 上面几种方法只是在应用系统的软实力上做文章,为数据库减压,但面对真正庞大的流量袭来时,还是得下硬功夫——提升数据库自身的读写性能。...06 总结 由于用户体量较小,我们目前开发的应用还未在数据库压力上出现过问题,但是经过几次压力测试项目工作,能够提前对大体量的业务应用性能障碍有一定的了解。

    1.4K30

    深度解析:腾讯云分布式数据库 DCDB

    在传统企业IT(内部ERP、OA)等系统上,这样的问题并不明显;然而当其面对的是互联网海量处理应用是,这种资源锁机制严重限制了RAC架构的扩展能力。...水平拆分的方案,实际上是分布式数据库的基础原理,他的每个节点都参与计算和数据存储,而且每个节点都仅计算和存储一部分数据。...腾讯云分布式数据库DCDB 腾讯云分布式数据库(DCDB)是部署在腾讯云上的一种,面向OLTP业务支持自动水平拆分(分表)的share nothing架构的分布式数据库。...在大部分数据库系统中,数据都有明显的冷热特征——显然当前的订单被访问的概率比半年前的订单要高的多(更热)——而采用Time分表或range分表,就意味大部分热数据将会被路由在少数几个分表中,而存储冷数据的设备性能却被浪费掉了...因为HASH算法本身就能够基本保证数据相对均匀的分散在不同的物理设备中(某些特殊情况下除外,我们将在后续章节进行介绍)。

    7K11

    ManiFest: manifold deformationfor few-shot image translation

    大量实验证明了ManiFest在多项任务上的有效性,在所有指标上都优于最先进的技术。 1、介绍  图像到图像翻译(i2i)框架在自动驾驶和照片编辑等多种应用中越来越受欢迎。...后者在第4节中进行了全面评估,我们在第5节中展示了几个扩展。 2、相关工作 图像到图像翻译(i2i): 尽管早期的i2i翻译方法需要配对数据,但循环一致性或最近的对比学习替代方案已经消除了这种限制。...在这里,样本在训练中是看不见的(不是少数镜头集T的一部分),因此GERM概括了少数镜头学习的样本行为。表1中的定量评估与定性结果一致,因为我们总是优于基线。...在这里,我们考虑两个少数镜头集(|T|=10),每个镜头集与身份锚和夜间锚之间的一组学习权重(w1,w2)相关联。结果如图所示。...我们首先从 翻译,研究残差在锚图像上的应用,使用我们的主干循环一致性[13],然后在 中重新编码假图像重建无需再培训(见图10)。这显示了ManiFest如何同时学习S→T和可接受的Am→T变换。

    29620

    中美程序员不完全对比

    1.年龄 美国公司: 同事里 20 多到 70 多岁的都有,众数是三四十的中年人,大部分工作目标都是为了早日退休,攒够钱就随时办退休 party。也有些纯粹因为热爱工作、热爱写代码选择不退休的。...对这老头印象深刻,是因为他逻辑清晰、思路锐利,他是 code review 小组的成员,经常在邮件里破口大骂其他人写的代码写得有多烂,被投诉,只好在邮件里道歉,过几天继续骂,在我工作的两年里一直循环。...我国公司: 回国之后我现在工作的公司,员工平均年龄在 30 岁以下。年纪大的都去哪里了呢?极少数在管理层。 2. 加班 美国公司: 从没加过班,晚上发版除外(会默认第二天调休)。...4.工作氛围 美国公司: 老美的公司确实比较尊重员工,在员工关怀上做得比较好。我可以感受到,和领导职位不同,但是我们人格是平等的,彼此尊重。...相比之下离职率高太多了,每个月都有几个认识的同事离职,跳槽的、转行的、回老家躺平的。 除了领导们,几乎每个人看起来都很焦虑,都想着退路,想着搞点什么副业。

    40520

    大数据开发(牛客)面试被问频率最高的几道面试题

    ,并将属于这个表的数据存放在这里);3)删除内部表会直接删除元数据(metadata)及存储数据;删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除;4)对内部表的修改会将修改直接同步给元数据,而对外部表的表结构和分区进行修改...因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。...查看任务->查看Stage->查看代码图片也可从以下几种情况考虑:1)是不是有OOM情况出现,一般是少数内存溢出的问题2)是不是应用运行时间差异很大,总体时间很长3)需要了解你所处理的数据Key的分布情况...注意:将倾斜Key添加1-N的随机前缀,并将被Join的数据集相应的扩大N倍(需要将1-N数字添加到每一条数据上作为前缀)图片4.7 数据集中少数几个key数据量很大,不重要,其他数据均匀解决方案:过滤少数倾斜...缺点:适用场景不多,大多数情况下,导致倾斜的key还是很多的,并不是只有少数几个。 实践经验:在项目中我们也采用过这种方案解决数据倾斜。

    5.5K98

    聊一聊中美程序员有啥不一样?

    1.年龄 美国公司: 同事里 20 多到 70 多岁的都有,众数是三四十的中年人,大部分工作目标都是为了早日退休,攒够钱就随时办退休 party。也有些纯粹因为热爱工作、热爱写代码选择不退休的。...对这老头印象深刻,是因为他逻辑清晰、思路锐利,他是 code review 小组的成员,经常在邮件里破口大骂其他人写的代码写得有多烂,被投诉,只好在邮件里道歉,过几天继续骂,在我工作的两年里一直循环。...我国公司: 回国之后我现在工作的公司,员工平均年龄在 30 岁以下。年纪大的都去哪里了呢?极少数在管理层。 2. 加班 美国公司: 从没加过班,晚上发版除外(会默认第二天调休)。...4.工作氛围 美国公司: 老美的公司确实比较尊重员工,在员工关怀上做得比较好。我可以感受到,和领导职位不同,但是我们人格是平等的,彼此尊重。...相比之下离职率高太多了,每个月都有几个认识的同事离职,跳槽的、转行的、回老家躺平的。 除了领导们,几乎每个人看起来都很焦虑,都想着退路,想着搞点什么副业。

    24610

    分库分表方案

    在文章开头先抛几个问题: (1)什么时候才需要分库分表呢?我们的评判标准是什么? (2)一张表存储了多少数据的时候,才需要考虑分库分表?...多应用单数据库 在前期为了抢占市场,这一套系统不停地迭代更新,代码量越来越大,架构也变得越来越臃肿,现在随着系统访问压力逐渐增加,系统拆分就势在必行了。...多应用多数据库 随着业务推广力度加大,数据库终于成为了瓶颈,这个时候多个服务共享一个数据库基本不可行了。我们需要将每个服务相关的表拆出来单独建立一个数据库,这其实就是“分库”了。...有几种方案可以解决: 字段冗余:把需要关联的字段放入主表中,避免 join 操作; 数据抽象:通过ETL等将数据汇合聚集,生成新的表; 全局表:比如一些基础表可以在每个数据库中都放一份; 应用层组装:将基础数据查出来...(3)排序、分页、函数计算问题 在使用 SQL 时 order by, limit 等关键字需要特殊处理,一般来说采用分片的思路: 先在每个分片上执行相应的函数,然后将各个分片的结果集进行汇总和再次计算

    23111

    Uber是如何低成本构建开源大数据平台的?

    我们在 Uber 实现了这样一个特性,并将它大量用于我们的 Hive 表,还把 代码 贡献回了 Apache Parquet。 行重排序:行顺序可以显著影响压缩后 Parquet 文件的大小。...3YARN 调度策略改进 在 Uber,我们使用 Apache YARN 来运行大部分的大数据计算负载(Presto 除外,它直接运行在专用服务器上)。...截至目前,我们已经建立了数十个 HDFS 集群和少数 YARN 集群。基于 HDFS 路由的联邦一直是我们大数据可扩展性工作的基石,它也提高了成本效率。...我们可以将这种思想应用在计算能力上吗?的确可以!这里要介绍的一项关键思想是维护作业,它们是可以在第二天甚至一周内随时发生的后台任务。...我们相信实际上还有更好的解决方案。但是,这将需要提出更精细的定价机制。我们想探讨的例子包括:每个团队可以在我们的集群上花费一种代币,或者用户可以用某种积分来提高他们的工作优先级,等等。

    68530
    领券