首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >结构化和非结构化数据与大规模数据处理引擎的集成

结构化和非结构化数据与大规模数据处理引擎的集成
EN

Stack Overflow用户
提问于 2015-04-12 18:13:34
回答 1查看 1.6K关注 0票数 0

像Spark、apache这样的数据处理引擎是如何将结构化、半结构化和非结构化数据集成在一起并影响计算的?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-04-12 22:57:39

通用数据处理引擎,如Flink或Spark,可以让您定义自己的数据类型和功能。

如果您有非结构化或半结构化数据,您的数据类型可以反映这些属性,例如,可以选择一些信息或使用灵活的数据结构(嵌套类型、列表、映射等)对其进行建模。您的用户定义函数应该知道某些信息可能并不总是存在,并且知道如何处理这种情况。

因此,处理半结构化或非结构化数据并不是免费的。必须明确指定它。事实上,这两个系统都把重点放在用户定义的数据和函数上,但最近增加了API来简化结构化数据的处理(Flink:表API,Spark:DataFrames)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29592818

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档