大数据开发面试题 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

11月大数据面试题复习

2 为什么要前后端分离开发？前后端分离开发的优势和劣势？让专业的人做专业的事情优势：分工明确，各司其职劣质：前后端联调需要消耗比较多的时间 3 什么情况下会引起跨域？...1）从 high-level 的角度来看，两者并没有大的差别。...当大表和小表join时，用map-side join能显著提高效率。...不一定，当数据规模小，Hash shuffle快于Sorted Shuffle数据规模大的时候；当数据量大，sorted Shuffle会比Hash shuffle快很多，因为数量大的有很多小文件，不均匀...，甚至出现数据倾斜，消耗内存大，1.x之前spark使用hash，适合处理中小规模，1.x之后，增加了Sorted shuffle，Spark更能胜任大规模处理了。

7351 2

2019 C++开发工程师面试题大合集

线程则不然，由于同一进城下的线程之间贡献数据空间，所以一个线程的数据可以直接为其他线程所用，这不仅快捷，而且方便。...2）调用 malloc（）函数时，它沿着连接表寻找一个大到足以满足用户请求所需要的内存块。然后，将该内存块一分为二（一块的大小与用户申请的大小相等，另一块的大小就是剩下来的字节）。...4）到最后，空闲链会被切成很多的小内存片段，如果这时用户申请一个大的内存片段，那么空闲链表上可能没有可以满足用户要求的片段了。...若所属自由链表为空，则请求内存池为所属自由链表分配空间；默认情况下，为该自由链表分配20个区块，若内存池剩余容量不足，则分配可分配的最大容量；若内存池连一个区块都无法分配，则调用chunk_alloc为内存池分配一大块区块...支持简单数据类型，需要客户端自己处理复杂对象 2）持久性：redis支持数据落地持久化存储；memcache不支持数据持久存储。)

1.6K4 1

您找到你想要的搜索结果了吗？

是的

没有找到

数据库面试题【十三、大表数据查询，怎么优化】

优化shema、sql语句+索引；第二加缓存，memcached, redis；主从复制，读写分离；垂直拆分，根据你模块的耦合度，将一个大的系统分为多个小的系统，也就是分布式系统；水平切分...，针对数据量大的表，这一步最麻烦，最能考验技术水平，要选择一个合理的sharding key, 为了有好的查询效率，表结构也要改动，做一定的冗余，应用也要改，sql中尽量带sharding key，将数据定位到限定的表上去查

6951 0

数据库面试题(开发者必看)

数据库常见面试题(开发者篇) 这里写图片描述什么是存储过程？有哪些优缺点？什么是存储过程？有哪些优缺点？存储过程就像我们编程语言中的函数一样，封装了我们的代码(PLSQL、T-SQL)。...我们应该做到：他们想看到什么样的数据，我们就给他们什么样的数据…一方面就能够让他们只关注自己的数据，另一方面，我们也保证数据表一些保密的数据不会泄露出来… 我们在查询数据的时候，常常需要编写非常长的SQL...rowid，方可看见（3）它与每个表绑定在一起，表亡，该表的rowid亡，二张表rownum可以相同，但rowid必须是唯一的（4）rowid是18位大小写加数字混杂体，唯一表代该条记录在DBF文件中的位置...不可重复读：一个事务读取到另外一个事务已经提交的数据，也就是说一个事务可以看到其他事务所做的修改注：A查询数据库得到数据，B去修改数据库的数据，导致A多次查询数据库的结果都不一样【危害：A每次查询的结果都是受...⑦多使用commit comiit会释放回滚点… ⑧善用索引索引就是为了提高我们的查询数据的，当表的记录量非常大的时候，我们就可以使用索引了。

1.9K5 1

入我新美大的Java后台开发面试题总结

静儿最近在总结一些面试题，那是因为做什么事情都要认真。面试也一样，静儿作为新美大金融部门的面试官，负责任的告诉大家，下面的问题回答不上来，面试是过不了的。...GC Roots的对象包括如下几种(静儿来新美大的时候就被我们架构师问过这个问题)：　　⭐️ 虚拟机栈(栈桢中的本地变量表)中的引用的对象　　⭐️ 方法区中的类静态属性引用的对象　　⭐️ 方法区中的常量引用的对象...⭐️ 通过explain做查询分析，看看有没有用索引，访问的行数rows 　　⭐️ 关闭skip_name_resolve，减少逆向DNS解析的消耗　　另外还有一些实际写代码过程中深入骨髓的，比如数据动静分离提高...很多人说面试题和实际开发联系不大，觉得没啥用。其实很多活培训两个月都是能干的。人和人之间的差距确实没有明显到你能干我不能干的程度。...还幻想着劝我家男神来我们新美大，像以前我在人人的时候一样，每周末来给我收拾工位呢。不来也好，旁边站着一个女神收割机，我压力也是有的。　　当一个人站在自己面前，其实自己心里是很清楚的。

8036 1

小米大模型数据开发工程师-武汉

小米大模型数据开发工程师-武汉我对于这个岗位的理解结合这个职位的描述与网上的搜索，对于这个职位我的理解大概是这样的：数据处理：需要使用各种工具（如SQL、Python、Hadoop等）来收集、清洗和处理数据...大模型和大数据的行业前景理解大模型-理解首先是对于大模型的理解，最经典的就是chatgpt，PI AI，claude2, Bard,这些是市面上使用体验最好的大语言模型，这也是我平日生活中工作学习必不可少的部分...就我自己学习和我们老师教学来看，我的理解是后端开发包含大数据开发，但是大数据开发不包含后端开发，也就是干后端开发的往往也可以干大数据开发，但是干大数据开发的很难转到后端开发，我们教学也是这样的，都显示教完...因此，Python常被用于数据分析和大模型的构建，它的灵活性和易用性使得数据科学家和工程师能够更快速地进行原型设计和实现复杂的数据分析任务。...kafka\spark\ETL\maven\gradle 我们可以将大模型数据开发想象成是一家大型的制造厂，而这些技术工具就是厂房中的各种设备。

721 0

大快大数据开发框架的构成模块

大快大数据开发框架的构成模块大数据也不是近几年才出现的新东西，只是最近几年才真正意义上变得热门、火爆！...做大数据原生态开发且又推出商业发行版的，行业也就只有大快搜索，可能在未来的三五年内也许还会有做大数据原生态开发的出现。...为何大数据的普及度不高，主要是由于大数据的应用开发太过偏向于底层，学习的难度不是一般的大，所涉及到的技术面广太大，不是一般人所能够驾驭得了的。...大快DKhadoop把大数据开发中的一些通用的，重复使用的基础代码、算法封装为类库，在很大程度上降低了开发的难度。相信这个对于从事开发的人员看了就更容易懂了。...下面，就给大家介绍看一下大快的大数据开发框架的模块构成都有哪些：大快大数据一体化开发框架主要由六部分组成：数据源与SQL引擎、数据采集（自定义爬虫）模块、数据处理模块、机器学习算法、自然语言处理模块、

7162 0

大数据工程师（开发）面试题(附答案)

我：初始化，资源，数据源，并行化，rdd转化，action算子打印输出结果或者也可以存至相应的数据存储介质补：具体的可看下图： 2. Spark有哪两种算子？...面试官：还有你刚刚写的那个groupByKey哈补：在我们的开发过程中，能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子...你如何从Kafka中获取数据？我：topic 补：分布式消息系统：Kafka 7. 对于Spark中的数据倾斜问题你有什么好的方案？我：可以先分析基数大造成数据倾斜的维度，将其适当的拆分。...面试官：给你个提示，尝试用树这个数据结构。补：此处埋一个坑，学完树的数据结构再回来解决。...非大数据领域，我们可以用ZooKeeper来做些什么？我：ZooKeeper是分布式协调组件，非大数据领域，可以用ZooKeeper来做HA或者存储数据，比如配置信息啥的。

15.1K4 0

数据库面试题【十一、InnoDB引擎的4大特性】

1、插入缓冲（insert buffer) 2、二次写(double write) 3、自适应哈希索引(ahi) 4、预读(read ahead)

3002 0

HashMap常见面试题_java面试题大汇总

比如某些人通过找到你的hash碰撞值，来让你的HashMap不断地产生碰撞，那么相同key位置的链表就会不断增长，当你需要对这个HashMap的相应位置进行查询的时候，就会去循环遍历这个超级大的链表，性能及其地下...关于这个值的设置，在《阿里巴巴Java开发手册》有以下建议：也就是说，如果我们设置的默认值是7，经过Jdk处理之后，会被设置成8，但是，这个HashMap在元素个数达到 8*0.75 = 6的时候就会进行一次扩容...HashMap的数据结构在Java中，保存数据有两种比较简单的数据结构：数组和链表。...JDK1.7 首先将数据分为一段一段的存储，然后给每一段数据配一把锁，当一个线程占用锁访问其中一个段数据时，其他段的数据也能被其他线程访问。...①、粒度降低了; ②、JVM开发团队没有放弃synchronized,而且基于JVM的synchronized优化空间更大,更加自然。

3812 0

出一套高端大数据开发面试题

一千个读者眼中有一千个哈姆雷特，一千名大数据程序员心目中就有一千套大数据面试题。本文就是笔者认为可以用来面试大数据程序员的面试题。...收集的面试题有以下三个来源：笔者在准备面试的过程中搜集并整理过的面试题。笔者在准备面试的过程中自己思考过的新题。笔者在面试过程中遇到的觉得比较好的题。...Spark的这些特性使得开发人员能够控制数据在不同节点上的不同分区，用户可以自定义分区策略，如hash分区等。...5）内存计算能力的扩展 spark的弹性分布式数据集（RDD）抽象使开发人员可以将处理流水线上的任何点持久化存储在跨越集群节点的内存中，来保证后续步骤需要相同数据集时就不必重新计算或从磁盘加载，大大提高了性能...6）开发速度的提升构建数据应用的最大瓶颈不是 CPU、磁盘或者网络，而是分析人员的生产率。所以spark通过将预处理到模型评价的整个流水线整合在一个编程环境中，大大加速了开发过程。

6603 0

大数据开发：Hadoop、Spark、Flink三大框架对比

目前来说，大数据领域最为活跃的三个计算框架，当属Hadoop、Spark以及Flink这三者。三个框架在不同的大数据处理场景当中，表现各有优势，因此也常常被拿来做比较。...今天我们也来做个Hadoop对比，看看Hadoop、Spark、Flink三大框架，各自的优势劣势如何。...3、数据流对比 Hadoop：MapReduce计算数据流没有任何循环，每个阶段使用上一阶段的输出，并为下一阶段产生输入。...Flink：Flink采用连续流式流传输模型，实时对数据进行处理，而不会在收集数据或处理数据时出现任何延迟。...作为主流的三大处理框架，这三者在大数据领域都有着自己的优势和劣势，因此最好的方案就是将各自的优势结合起来，实现更高效率地完成大数据处理任务。

2.8K3 0

大数据开发：Spring Cloud 五大组件介绍

SpringCloud分布式开发服务发现——Netflix Eureka、客服端负载均衡——Netflix Ribbon、断路器——Netflix Hystrix、服务网关——Netflix Zuul、...分布式配置——Spring Cloud Config等五大组件，本篇文章会给大家详细介绍五大组件的作用以及功能。

1.8K2 1

2023秋招大厂-嵌入式开发经典笔试面试题目大整理

前言：嵌入式其实是一个知识比较杂乱的岗位，软件你要懂，硬件你也要懂；底层要懂，做应用开发的话上层也要懂。...10、线程通讯（锁）：（1）信号量（2）读写锁（3）条件变量（4）互斥锁（5）自旋锁第二章C/C++面试题 1、new和malloc的区别 2、 malloc的底层实现 3、在1G内存的计算机中能否...cache情况下，DMA数据链路为：外设-DMA-DDR-cache-CPU,CPU需要对cache做什么操作，才可以得到数据 14、linux中改变文件属性的命令：chmod 15、linux中查找文件中匹配字符串的命令...） 4、I2C协议时序图 5、单片机的SP指针始终指向：栈顶 6、I2C总线在传送数据过程***有三种类型信号，它们分别是：开始信号、结束信号和应答信号。...：80 4、面向对象编程的三大特性，以及重载的意思。

1.6K1 0

android开发面试题

m(model)业务模型-v(view)视图-c(controller)控制器：该设计模式将业务逻辑和实现view分离开来，model管理数据，view显示视图，controller就负责当model数据发生变化时同步到...这是工作四个月后的面试题，因为没有培训过，完全是自学，所以有的简单，有的偏祝正在找工作的好运！！！

3452 0

java开发面试题

union：查询的结果集会合并不会包含重复项 union all：查询的结果集不会合并会包含重复项 3、spring的aop通知 4.git和svn的区别 git是分布式的 svn不是分布式的 git把数据按元数据存储...没有一个全局版本号 svn有 svn提交必须先update然后在commit，忘记合并会出现问题 5、left join、right join，join的区别 left join 左链接以左边为主关联表2，表1数据全部显示...，表2展示与表1交集数据 right join 右链接以右边为主关联表2，表1数据全部显示，表2展示与表1有交集数据 join 内链接表1 表2只展示有交集的数据 6、msql函数 char_length...的区别 ehcache是一个纯java的进程缓存框架，运行在jvm上，效率高，速度快，但是缓存共享麻烦，分布式架构麻烦 redis是一个独立程序，通过socket访问到缓存服务，效率比ehcache慢比数据库访问快...Spring有七大功能模块，分别是Spring Core，AOP，ORM，DAO，MVC，WEB，Context。

1602 0

前端开发面试题

前端开发面试题前言只看问题点这里看全部问题和答案点这里本文由我收集总结了一些前端面试题，初学者阅后也要用心钻研其中的原理，重要知识需要系统学习、透彻学习，形成自己的知识链。...IE6双边距bug:块属性标签float后，又有横行的margin情况下，在ie6显示margin比设置的大。...(stack)中的简单数据段，占据空间小、大小固定，属于被频繁使用数据，所以放入栈中存储；引用数据类型存储在堆(heap)中的对象,占据空间大、大小不固定。...nginx 模块化开发怎么做？...如果索引比文件名的长度大，结果为""。 Webpack热更新实现原理?

5.1K5 2

面试题-----五大框架总结!!!

请求经过过滤器 3、再被Struts调用，通过Struts2的核心配置文件决定调用某个action 三、hibernate的特点 1、轻量级的框架 2、是持久层框架 3、内置简单的sql语句 4、是实体类与数据库表字段的关系型映射...6、全自动四、mybatis的特点 1、手动编写sql语句 2、动态实现sql 3、是实体类与sql语句的关系映射 4、也是持久层框架 5、半自动五、hibernate与mybatis的区别 1、数据库表数量较多...，需要批量处理推荐使用mybatis框架 2、数据库表结构复杂，推荐使用mybatis框架 3、人员方面不是经常使用hibernate的情况下，使用mybatis框架简单易学六、mybatis 工作原理...1、加载mybatis全局配置文件（数据源、mapper映射文件等），解析配置文件，MyBatis基于XML配置文件生成Configuration，和一个个MappedStatement（包括了参数映射配置...3、SqlSession对象完成和数据库的交互： a、用户程序调用mybatis接口层api（即Mapper接口中的方法） b、SqlSession通过调用api的Statement ID找到对应的MappedStatement

6924 0

2019数据库面试题：三大范式理解（实例超全解析）

一、数据库第一范式：数据库表的每一列都是不可分割的基本数据项，同一列中不能有多个值，即实体中的某个属性不能有多个值或者不能有重复的属性。...（保持数据的原子性）数据原子性很好理解，就是表中的字段不可再分。 ? 这是一张简单的员工信息表，其中有工号、姓名、电话三个字段。...二、数据库第二范式：在满足第一范式的基础上，实体的每个非主键属性完全函数依赖于主键属性（消除部分依赖）主键：凡是接触过数据库的人，肯定都会知道主键，主键明确标识了每条记录，一般是一个字段，也可以由两个或两个字段组成...** 反3NF 没有冗余的数据库未必是最好的数据库，有时为了提高运行效率，就必须降低范式标准，适当保留冗余数据。...具体做法是：在概念数据模型设计时遵守第三范式，降低范式标准的工作放到物理数据模型设计时考虑。降低范式就是增加字段，允许冗余。订单和订单项、相册浏览次数和照片的浏览次数。

4.3K2 0

机器学习|从0开发大模型之数据预处理

本文主要介绍数据的预处理。 1、找大模型的数据前面写了一篇文章《ChatGPT|大语言模型训练有哪些开源数据集? 》（https://mp.weixin.qq.com/s?...不过在开发大模型，需要根据实际的需求可以找到不同的数据，比如如果需要英文预料，那么就需要找到英文的预料，目前我们的 myllm 项目主要是中文小模型，所以找了一些中文相关数据： Wiki中文百科：https...2、数据预处理下载数据以后，按照如下流程处理：提取文件的文本数据将文本数据进行截断，比如某段文本超过限制的上下文大小（如：512），就需要截断，增加截断标识将文本转换为token，格式化存储token...3、合并多个数据可以将多个数据，代码如下： # 将多个数据合并为一个文件 def pretrain_process(): process_wiki_clean() data_path_list...pretrain_data.bin，数据大小 361M。

921 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭