通过Spark对不同字段执行多个正则表达式规则

Spark是一个开源的大数据处理框架，它提供了分布式计算和数据处理的能力。通过Spark，可以对不同字段执行多个正则表达式规则，实现数据的筛选、转换和处理。

正则表达式是一种用来匹配和处理文本的强大工具。它可以通过定义一系列规则来匹配符合特定模式的字符串。在数据处理中，正则表达式常用于数据清洗、提取和转换。

在Spark中，可以使用正则表达式对不同字段进行处理。具体步骤如下：

导入Spark相关的库和模块，如pyspark或spark-submit。
创建SparkSession对象，用于与Spark集群进行交互。
读取数据源，可以是文件、数据库或其他数据源。
使用Spark的DataFrame或RDD API，对数据进行转换和处理。
使用正则表达式函数，如regexp_replace、regexp_extract等，对字段进行匹配和处理。
执行其他数据处理操作，如过滤、聚合、排序等。
将处理后的数据保存到目标位置，如文件、数据库等。

通过Spark对不同字段执行多个正则表达式规则的应用场景包括：

数据清洗：通过正则表达式规则，去除无效字符、过滤噪声数据，提高数据质量。
数据提取：从文本中提取特定模式的信息，如提取URL、邮箱、电话号码等。
数据转换：将数据按照一定规则进行转换，如日期格式转换、单位转换等。
数据分析：通过正则表达式规则，对文本进行分析和统计，如计算词频、统计出现次数等。

腾讯云提供了多个与大数据处理相关的产品和服务，可以与Spark结合使用，实现更强大的数据处理能力。以下是一些推荐的腾讯云产品和产品介绍链接地址：

腾讯云数据仓库（TencentDB）：https://cloud.tencent.com/product/dw
腾讯云数据湖（Tencent Cloud Data Lake）：https://cloud.tencent.com/product/datalake
腾讯云弹性MapReduce（EMR）：https://cloud.tencent.com/product/emr
腾讯云数据传输服务（Data Transfer Service）：https://cloud.tencent.com/product/dts
腾讯云大数据计算服务（Tencent Cloud Big Data Computing）：https://cloud.tencent.com/product/dc

通过结合Spark和腾讯云的产品，可以实现高效、可靠的大数据处理和分析。

数据库.自动并行性和Spark

、、、

我有一个关于数据库单元格和Spark的自动并行性的一般性问题。我有一个摘要表，其中有许多字段，其中大多数字段背后有一个复杂的逻辑。如果我在单个单元中放置单个字段逻辑的块(%SQL)，调度程序是否会自动尝试将单元分配到集群中的不同节点以提高性能(取决于我的集群有多少节点)？或者，我可以使用它们的PySpark函数来组织并行运行吗？我在其他地方找不到很多这件事..。我正在使用LTS 10.4 (Spark3.2.1Scala2.12) 非常感谢理查德

浏览 3提问于2022-05-04得票数 0

回答已采纳

1回答

在Spark-Streaming和Cassandra中使用期货(Scala)

、、、

我对spark比较陌生，我想知道在Cassandra中使用spark-streaming时的最佳实践是什么。通常，在执行IO时，最好在Future中执行它(在Scala中)。然而，许多spark-cassandra-connector似乎是同步运行的。例如：saveToCassandra (com.datastax.spark.connector.RDDFunctions) 为什么这些函数不是异步的，有什么好的原因吗？我应该用Future把它们包装起来吗？

浏览 4提问于2016-07-03得票数 2

2回答

星火结构流-python-org.apache.kafka.common.TopicPartition；类对反序列化无效

、、、

我正在尝试执行下面的火花流示例代码。我正在一个AWS EMR集群上运行它，它的版本为SparkVersion2.0.2。下面的依赖项被添加到星火提交中。 spark-sql-kafka-0-10_2.11-2.0.2.jar spark-streaming-kafka-0-8-assembly_2.11-2.0.2.jar kafka-clients-0.10.2.0.jar 下面是错误日志： Batch: 0 ------------------------------------------- 17/06/06 19:44:01 WARN TaskSetManager

浏览 2提问于2017-06-06得票数 0

回答已采纳

1回答

星星之火-卡桑德拉，如何基于查询获取数据

、、、

我有一个卡桑德拉表，这是相当大的，现在我有火花-卡桑德拉与以下代码连接。 import pandas as pd import numpy as np from pyspark import * import os from pyspark.sql import SQLContext os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.datastax.spark:spark-cassandra-connector_2.12:3.0.1 --conf spark.cassandra.connection.host

浏览 2提问于2021-07-06得票数 1

回答已采纳

2回答

CoreData validateValue: forKey：

、、

我正在尝试使用validatevalue:forkey:方法来验证coredata属性。我有一个文本字段，我从它那里得到一个字符串，然后我想根据我的验证来检查这个字符串。我假设它正在尝试针对Reg进行验证。Exp.我的模型里也有。但是，无论我输入什么，它都会通过验证。编辑：正则表达式是用于验证电子邮件的标准正则表达式。我明天可以发布一些“官方”代码，但它基本上类似于以下内容： NSString *string = textfield.text; if(![myEntity validateValue:&string forKey:@"email"]) {

浏览 2提问于2012-01-31得票数 0

回答已采纳

2回答

查找逗号之间的两个以上引号的Regex

、

我正在寻找一个正则表达式，它将以NotePad++搜索，[HERE]不应该包含任何双引号的格式如下： ,"[HERE]", 基本上，我希望在引号字段中找到逗号之间的任何附加引号。 Invalid: ,"hello "there"", Invalid: ,"hello there"", Invalid: ,"hell "o there", Invalid: ,"""""""", VALID: ,"hello there",

浏览 6提问于2016-11-22得票数 0

回答已采纳

1回答

Powerbuilder :如何为字段编写验证表达式

、

我有一个包含多个字段的数据窗口。我想为一个名为amount的字段编写一个验证表达式。我还有另外两个名为debit和credit的字段。如果借方和贷方的总和大于金额，那么我想向用户显示一条验证消息。如何在该数据窗口的列规范中编写所需的验证表达式？我还想为一个名为test的字段编写验证表达式。有一个名为criteria的字段。当此字段设置为1时，我希望测试字段为必填字段。我该如何为此编写验证表达式？

浏览 1提问于2010-07-15得票数 1

回答已采纳

1回答

每当新用户注册时将作者自动设置为节点，并自动对用户进行身份验证。

、

我有一个内容类型为people的Drupal站点。在该内容类型中，我有一个包含电子邮件id的字段。我想做的是，每当新用户注册时，我想将用户的电子邮件与所有节点的电子邮件字段进行比较，其中people是内容类型。如果这两个字段匹配，那么将用户设置为该节点的作者。我不知道如何执行这个过程。有人能给我一个解决办法吗？

浏览 0提问于2015-09-02得票数 2

2回答

如何改进我的.htaccess mod_rewrite内容？

、、、

经过几个小时的工作，我已经创建了以下.htaccess文件，一切似乎都正常工作，但是我是mod_rewrite新手，我认为我的代码是业余的，所以我正在寻找需要改进的地方。例如，我认为如果我在规则的末尾使用L，其余的重写将被忽略，但查看重写日志，我发现它们并非如此，存在多个不需要的模式匹配，这肯定会减慢一切。我也有一本书说C会链接重写条件，但是我的apache抛出了

浏览 0提问于2011-08-16得票数 2

回答已采纳

1回答

如何在可自动扩展的共享集群上高效地存储桶/分区？

、、、

编辑:对Databricks使用Spark 据我所知，有效的分区应该基于可用的执行器的数量，理想情况下分区% executors =0 但是如果你在一个共享的Spark集群上工作，这个集群可以根据活动自动伸缩，在这个集群中，人们可能会让一些执行者忙于自己的工作，那么以这种方式有效地分区和存储桶是可能的吗？假设我注意到集群上有8个exectutor处于活动状态，因此我创建了8个分区或存储桶，以便更轻松地分配工作负载。在这种情况下，Alice和Jane登录并开始运行大型查询，因此集群扩展到12个执行器。现在我不再被有效地分割了。或者，如果集群没有升级，但Alice和Jane占用了一些执行器，现

浏览 4提问于2021-11-26得票数 2

1回答

限制媒体验证仅限于媒体库

、

我已经将字段验证(AltRequired)应用于媒体库图像.But，这也给内容编辑器中的任何条目中使用的图像提供了验证错误，其中alt文本在已使用图像中为空。是否有办法从内容项中删除验证，并将其仅限于媒体库映像我已将altRequired字段验证应用于媒体库映像。

浏览 3提问于2022-11-16得票数 0

1回答

在spark单机版中将创建多少个执行器

我在没有hadoop/yarn的服务器(8vCores和64 in )中安装了spark。我正在运行具有以下属性的作业。 spark.executor.instances=4 spark.executor.memory=6g spark.executor.cores=4 spark.driver.memory=16g 从顶部的命令中，我看到该程序占用了大约22.3 is的内存。你能让我知道我们在独立运行时会创建多少个执行器吗？谢谢

浏览 0提问于2019-07-12得票数 0

3回答

启动Apache星系团

、、、

我已经在我的四个节点集群上安装了Hadoop。我还在其中的每一个上安装了Apache。我可以在没有密码的情况下从主人那里进入每个奴隶。我也可以很好地启动我的主节点。但是，当我尝试使用/opt/start/sbin/start-all.sh运行Spark时，我会得到以下错误： starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-hduser-org.apache.spark.deploy.master.Master-1-lebron.out doublet: chown: changin

浏览 9提问于2016-10-19得票数 4

回答已采纳

1回答

将不等大小的数据集连接到spark中

、、

我有下列数据集： Dataset 1: Dataset 2: Dataset 3: id field1 l_id r_id id field2 以下是它们的尺寸: Dataset1: 20G Dataset2: 5T Dataset3: 20G 目标：我想将id字段上的所有这些数据集( id来自Dataset1，r_id与id来自Dataset 3)与最后的数据集连接起来，如下所示： l_id r_id field1 field2

浏览 2提问于2015-08-27得票数 1

2回答

Apache使用多个核心，尽管使用了spark.executor.cores=1

、、、、

当我在Apache Spark 1.2.1 6.5上启动CentOS应用程序时，我会根据“top”输出接收超过100%的执行程序负载，并且负载平均值比内核数量大得多。因此，我对垃圾收集器的负载很高。试图用spark.executor.cores=1限制每个执行器的核心。尝试过spark.cores。没有任何效果。硬件为2×Intel(R) Xeon(R) CPU E5-2620 v2 @ 2.10GHz，每个节点有6个物理核，每个节点有12个CPU核。部署模型是纱线客户端。类似的Ubuntu14.04设置与4个物理核(英特尔i5)没有任何问题，每个执行者一个

浏览 1提问于2015-03-28得票数 2

回答已采纳

1回答

如何将流DataFrame写入Spark结构化流中的多个接收器

、

我有一组SQL规则，需要在foreachBatch()内部的流数据中应用这些规则。应用这些规则之后，应该将结果/过滤后的数据写入多个目的地，如"delta“和"cosmos DB”。下面是我尝试过的:使用来自forEachBatch()方法的静态数据，我试图创建如下所示的临时视图。 df.writeStream .format("delta") .foreachBatch(writeToDelta _) .outputMode("update") .start() def upsertToDelta(microBatchOut

浏览 1提问于2020-12-18得票数 4

回答已采纳

1回答

Spark问题:如果我不缓存数据帧，它会被多次运行吗？

、、

如果我不缓存使用带有limit选项的spark SQL生成的dataframe，当我编辑得到的dataframe并显示它时，我会得到不稳定的结果吗？描述。我有一个类似下面的表格，它是通过使用带有limit选项的spark SQL生成的： +---------+---+---+---+---+ |partition| | 0| 1| 2| +---------+---+---+---+---+ | 0| 0| 0| 10| 18| | 1| 0| 0| 10| 17| | 2| 0| 0| 13| 17| +---------

浏览 6提问于2021-04-21得票数 0

回答已采纳

1回答

将正则表达式与CORS一起使用

、、

我正在尝试在cors中使用正则表达式。我已经读过很多次了，cors不可能是所有(*)或精确的域。。然而，这似乎与相矛盾。有人可以澄清，如果使用正则表达式是可能的，请提供一个简单的例子，因为我已经尝试实现上面的链接，但没有成功。希望使用正则表达式是 ^http\://\blocal-.*\b\.testing-test:10005$ 我检查了我的正则表达式，它与生成的URL相匹配。我已经按照建议在apache2.conf中添加了SetEnvIF和Header set行(这样做正确吗？)如下所示 SetEnvIf Origin "^http\://\blocal-.*\b

浏览 0提问于2013-08-26得票数 2

1回答

如何从火花中具有不同格式的多个文件创建一个DataFrame？

、

我知道我可以使用spark.read.csv()或spark.read.json()将CSV文件或JSON文件作为一个DataFrame加载，但是如果我的源文件实际上是不同格式的，例如，我的一些原始数据在CSV文件中，而另一些在JSON文件中呢？我是否可以创建一个包含来自CSV和JSON文件的数据的DataFrame？也许我应该分别加载它们并在DataFrames上使用JOIN操作，或者我应该首先将所有JSON数据转换成CSV并使用单个spark.read.csv()加载它们，但是我想听听您的建议，因为我对Spark还是新手。

浏览 0提问于2021-08-14得票数 0

回答已采纳

1回答

用于Apache Spark拼花数据帧的JOOQ生成器？

、、、

我工作的地方是，我们在后端代码的某些部分使用JOOQ生成sql查询。已经编写了很多代码来使用它。在我这方面，我想将这些特性映射到spark中，特别是在Spark SQL中生成从一堆拼图文件加载的数据帧上的查询。有没有工具可以从parquet (或spark)模式生成DSL类？我什么也找不到。在这个问题上，其他方法是否成功？理想情况下，我希望从可能不断演变的模式中动态生成表和字段。我知道这是一个广泛的问题，如果它被认为超出了范围，我将结束它。

浏览 1提问于2017-11-09得票数 3

1回答

在第二个下划线和最后一个下划线之间获取字符串的正则表达式

、、

我想得到所有字符之间的第二个下划线和最后下划线之间的字符串，任何想法，这是如何可以实现的。我将在spark中的regex_extract函数中使用这个正则表达式。 Examples Input Output Problem_ISOAPAPattern_Pat_2nd_byUser-withAllRoles_351107b7-88eb-4232-9107-b788eb92325b

浏览 9提问于2022-02-19得票数 1

回答已采纳

1回答

我们如何看待同一个函数的不同实现

、

我想了解如何在Scala中实现相同方法。 def createDataFrame[A <: Product](data: Seq[A])(implicit evidence$3: reflect.runtime.universe.TypeTag[A]): org.apache.spark.sql.DataFrame def createDataFrame(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_]): org.apache.spark.sql.DataFrame def createDataFrame(row

浏览 0提问于2020-07-19得票数 0

回答已采纳

2回答

火花流-kafka-0-10:如何限制火花分区的数量

、、、、

是否可以用spark-streaming-kafka-0-10库配置Spark来读取多个Kafka分区，或者用单个任务来读取整个Kafka主题，而不是为每个可用的Kafka分区创建不同的Spark任务？请原谅我对这些技术的粗略理解；我认为我对火花和卡夫卡还不熟悉。架构和设置主要是为了探索和查看这些技术是如何协同工作的。我有四个虚拟主机，一个有火花放电的主人，每个都有一个火花工作者。其中一个主机还运行一个基于的Kafka代理。每台主机都有四个核心和大约8GB的未使用RAM。 Kafka broker有206个主题，每个主题有10个分区。因此，总共有2,060个分区可供应用程序读取。我正在使

浏览 3提问于2017-02-20得票数 1

回答已采纳

1回答

数据库Spark中的正则表达式

、、

奇怪的事。使用Databricks，但在使用replace_regex功能时获得两种不同的行为。 %sql select upper(regexp_replace('Test (PA) (1234) ', '[(]\\d+[)]', '')) as result 返回我的期望:测试(PA) 然而： %python display(spark.sql("""select upper(regexp_replace('Test (PA) (1234) ', '[(]\\d+[)]', &#

浏览 8提问于2022-06-23得票数 0

回答已采纳

2回答

在正则表达式中，和.有什么区别？

、、

我看到*的通配符在一些命令(如：find *.jpg )中使用，这意味着查找以.jpg结尾的任何文件。但是，在正则表达式中，.*还意味着对任何字符都要执行0次或更多次。那么，他们之间有什么区别？什么时候使用*，什么时候使用.*

浏览 5提问于2013-10-30得票数 2

回答已采纳

1回答

我应该为不同类型的整数创建多少个令牌？

、

我正在尝试为一种具有以下类型int的语言实现一个词法分析器： int32 int64 uint32 uint64 sint32 sint64 fixed32 fixed64 sfixed32 sfixed64 我的问题是:我应该为它们中的每一个创建不同的令牌吗？我应该为每一个都创建一个REGEX吗？这是我到目前为止的代码： %{ enum Tokens{ L_INT = 1, L_DOUBLE, L_FLOAT, L_BOOL, L_STRING, L_BYTE, RW_REQUIRED, RW_OPTIONAL, RW_REPEATED, RW_MESSAGE, RW_IMPORT, RW_

浏览 1提问于2017-10-20得票数 0

1回答

用oozie火花操作加载依赖jar (用于不同操作/作业的相同jar的不同版本)

、、

我的主要星火项目依赖于其他实用程序，jars.So组合集可能如下所示： 1. main_spark-1.0.jar will work with utils_spark-1.0.jar (some jobs use this set) 2. main_spark-2.0.jar will work with utils_spark-2.0.jar (and some of the jobs use this set) 对于我来说，处理这种情况的方法是用火花-选择作为传递罐子。 oozie spark action job1 <jar>main_spark-1.0.jar<

浏览 1提问于2017-10-22得票数 0

回答已采纳

1回答

在具有多个应用程序的工作人员上运行多少JVM？

、、

我使用的是星火+独立集群管理器。我有5个工作节点，每个工作节点有2个核心和14 GB的RAM。我如何才能计算出在工作节点上将启动多少JVM火花？用例1 我以信任开始应用程序/会话。 spark.executor.cores=2 spark.executor.memory=10GB 此时，Spark在每个工作节点上启动一个执行器的JVM，对吗？然后，我启动另一个火花应用程序/会话之前，第一个会话正在进行与信任 spark.executor.cores=2 spark.executor.memory=4GB 此时，每个工作节点上都有两个JVM，对吗？用例2 我以吐露

浏览 1提问于2017-05-17得票数 2

回答已采纳

2回答

如何使用正则表达式拆分收据？

、、

我最后一次使用正则表达式是在2年前，即使那时我也不认为它是最简单的东西！谁能告诉我如何将这篇文章分成三组(数量，名称，价格)？ 1 Corn Dog 5.00 3 Corn Dog 15.00 @ 5.00 2 Diet Cola 4.00 @ 2.00 我自己也尝试过使用，但是符号越来越多了！我很想开始做一些时髦的字符串操作作为B计划。我使用Objective-C，所以我可能会使用NSPredicate来执行表达式。

浏览 0提问于2010-10-18得票数 1

回答已采纳

3回答

正在尝试将数据帧写入文件，写入行时获取org.apache.spark.SparkException: Task失败

、、

浏览 2提问于2017-03-11得票数 9

回答已采纳

1回答

如何从azure synapse表到spark databricks处理varchar not null列中的空格

、、、

当我从synapse数据库中读取spark (使用azure databricks)中的表时，我遇到了一个问题。该表的定义如下： CREATE TABLE A ( [ID] [int] NOT NULL, [Value] [int] NOT NULL, [Description] [nvarchar](30) NOT NULL, ) 字段Description可以为空(即"")，也可以包含空格。在synapse中，我对这个字段没有任何问题，当我使用spark将其放入数据帧中读取表格时也是如此。当我编写像df.show()或df.count()

浏览 59提问于2020-10-01得票数 0

1回答

如何使用完整的bool逻辑执行maven配置文件的激活？

、、

我有以下情况，这不是maven- following ()所涵盖的： 5份简介： scala-2.11scala-2.12spark-2.2spark-2.3spark-2.4 和下列强制执行规则： Scala2.11和2.12必须是activatedexact activatedspark 2.2中的一个，2.3和2.4必须是 2.2和2.3不兼容Scala2.12 现有的maven插件太弱，无法实现这一点。我还有别的选择吗？

浏览 2提问于2019-10-01得票数 1

1回答

火花执行者和任务

、、

在Spark中，执行者可能同时运行许多任务--可能是2、5或6。星火如何计算出(或计算)在同一个执行器中同时运行的任务数量，即一个执行器可以同时运行多少个任务？执行者可能正在执行一项任务，但另一项任务可能被放置在同一执行器上并发运行？标准是什么？执行器被分配一个固定数量的核心&内存。由于我们没有为Spark中的任务指定内存和核心需求，那么如何计算在一个执行器中可以并发运行多少？

浏览 0提问于2016-09-05得票数 2

1回答

重命名JSON中的无效密钥

、、

我在NIFI中有以下流程，JSON中有(1000+)对象。 invokeHTTP->SPLIT JSON->putMongo Flow运行良好，直到我在json中收到一些带有".“的密钥。在名字里。例如"spark.databricks.acl.dfAclsEnabled“。我目前的解决方案并不是最优的，我已经记下了坏的键，并用多个替换文本处理器来替换“。带"_“。我没有使用REGEX，我使用字符串文字查找/替换。因此，每次我在putMongo处理器中遇到故障时，我都会插入新的replaceText处理器。这是不可维护的。我想知道我是否可以使用JOLT来

浏览 5提问于2018-08-31得票数 2

回答已采纳

1回答

MySQL中的“分段”外键？

我对MySQL中的外键有问题，或者我只是想错了方向.我有一个活动日志表，需要引用当前其他两个表中的键值。因此，我使用一个字段，该字段包含外键值以及指示符，说明外键值来自哪个表。 Table activitylog ... RefID INT NOT NULL, RefType INT NOT NUL, ... Table offers OfferID INT NOT NULL, ... Table orders OrderID INT NOT NULL, ... 如果用户创建了一个报价，那么表提供的OfferID的值将被写到活

浏览 4提问于2016-01-18得票数 0

回答已采纳

2回答

将列与多个可能的值匹配

、、

我试图使用awk过滤出文件中的数据。到目前为止，对于单个值，我将使用如下命令 hadoop fs -text file:///a/b/filename.snappy awk -F'|' '$11 == 655' > filter_20180705.txt 我想在比较部分传递一个值列表，而不是传递$11 == 655，而是传递一个类似于$11 in ( list )的列表。任何有关这方面的想法都是有帮助的。样本-数据： karthick,bangalore,software,it,bfsi,spark,hadoop,bigdata,etl,pentah

浏览 0提问于2018-10-29得票数 1

回答已采纳

1回答

MongoDB中的多字段搜索

、、

我有这样一个模式 {_id: ..., fullname: 'fullname', username: 'username'}, {_id: ..., fullname: 'fullname2', username: 'username2'}, 我有一个搜索字段来搜索fullname和username并得到结果。问题是我的实现不起作用。 users = await User.find({ $or: [ { fullname: { $regex: search, $options:

浏览 7提问于2021-12-26得票数 0

3回答

如何在本地模式下更改执行程序的数量？

、、

是否可以使用某些Spark设置在本地模式下为Spark流应用程序设置多个执行器？目前，当我将spark.executor.instances参数更改为4时，我无法看到Spark在性能或执行器数量上有任何变化。

浏览 3提问于2018-09-05得票数 8

回答已采纳

1回答

使用Fluent验证的条件验证

、、、、

我需要的是一种有条件地验证字段的方式，取决于是否填充了其他字段。例如。我有一个下拉列表和一个相关的日期字段。如果没有设置任何字段，则表单应通过验证。但是，如果设置了两个字段中的一个，但另一个字段未设置，则应触发验证，这需要设置另一个字段。我已经编写了自定义验证类，但它似乎是在单个字段上进行验证。有没有办法使用内置的验证器来设置我需要的验证？如果没有，有没有使用自定义验证器连接两个字段的好方法？

浏览 4提问于2011-11-11得票数 97

回答已采纳

1回答

如何使用PHP对mongoDB上的多个字段搜索相同的值？

、

我正在为我的应用程序创建一个搜索页，并使用MongoDB。因此，我需要在多个字段中搜索字符串数组。当我在一个字段中搜索时，我这样做： $docs = $collection->find(array('username' => new MongoRegex("/^query/")); 但是当我搜索多个字段时，我需要做什么？像这样的东西？ $docs = $collection->find(array('username','name', 'email' => new MongoRegex(&

浏览 0提问于2012-06-04得票数 0

回答已采纳

1回答

在spark函数中创建本地数据的错误

、

我正在运行以下代码(星火版本3.0.1) case class PubData(publisher_id:Int, country:String, platform:String) case class PubRes(publisher_id:Int, status:String) import spark.sqlContext.implicits._ val ds = obSpark.spark.table(tbl) .select("publisher_id", "country", "platform") .as[PubData

浏览 6提问于2021-01-13得票数 0

1回答

规则只从多选择值中获取单个分类项。

、、

我已经创建了一个规则，它应该从分类法术语字段(一个包含分类法术语列表的字段)获取所有选定的术语。但是，当规则被执行时，它只获取一个分类法术语，而不是全部。该字段被设置为保存“无限”值。规则是： Entity type = taxonomy term Condition => content-type = course Data selector => node:field-autodealer:name 该规则应该将来自选定组的所有用户添加到一个课程中。

浏览 0提问于2018-05-09得票数 1

回答已采纳

2回答

Kafka.Utils.createRDD Vs KafkaDirectStreaming

、、

我想知道当我想读取所有Kafka队列时，使用batch-Kafka RDD而不是KafkaDirectStream，从Kafka队列读取操作是否更快。我观察到，使用批处理RDD从不同的分区读取数据不会导致Spark并发作业。是否有一些Spark专有者可以配置以允许此行为？谢谢。

浏览 0提问于2016-06-17得票数 1

1回答

并发键值表

、

我有几张桌子： CO_KEYVALUE co_keyvalueid int co_keyid int value text CO_KEY co_keyid int keyname varchar(128) 问题是:如何有效地控制字段键名，使其在应用层中是唯一的？例如：客户端1插入(“名称”，“客户端1") 同时，客户机2插入(“名称”，“客户端1") Function Put(Name, Value) { Id = SELECT co_keyid FROM co_key WHERE co_keyname = :Name If(!Id) { /

浏览 4提问于2015-01-17得票数 0

1回答

如何在同一台机器上创建2个spark masters/workers？

通过定义不同的端口，我希望在同一台机器上启动两个主机，但它失败了： $ $SPARK_HOME/sbin/start-master.sh --port 8001 --webui-port 8011 starting org.apache.spark.deploy.master.Master, logging to /Users/brandl/bin/spark-2.2.0-bin-hadoop2.7/logs/spark-brandl-org.apache.spark.deploy.master.Master-1-scicomp-mac-12.local.out $ $SPARK_HOME/s

浏览 0提问于2017-09-06得票数 1

1回答

Spark :基于s3文件中的字段动态生成查询

、、

过度简化的场景：--在s3文件中生成每月数据的过程。每个月运行的字段数可能不同。基于s3中的这些数据，我们将数据加载到一个表中，并且我们手动地(在每次运行中字段的数目可能会随着添加或删除几个列而改变)运行一个metrics.There，因为很少的metrics.There会对这些数据进行更多的计算/转换，但是为了让初学者我呈现更简单的usecase版本。 Approach：考虑到模式少的特性，由于每次运行时s3文件中的字段数可能不同，只需添加/删除几个字段，这就需要在SQL中每一次进行手动更改，因此我计划探索Spark/Scala，这样我们就可以直接从s3中读取数据，并根据字段动态生成SQL。

浏览 7提问于2020-03-19得票数 1

1回答

洗牌最后一项任务花了太多时间才能完成

、、

我有大约80 it的数据，一切都很顺利，直到最后的洗牌任务出现，所有的任务都在30分钟内完成，但是最后的任务需要超过2个小时才能完成。 Joins：(左连接)连接3个表，其中一个表相对较小(2MB)数据，对于那个设置广播变量，即使我删除了第3个表，它也没有解决我的问题。下面是配置的参数。 spark.conf.set("spark.sql.autoBroadcastJoinThreshold", "904857600") spark.conf.set("spark.cleaner.referenceTracking.blocking",

浏览 8提问于2022-03-02得票数 1

回答已采纳

1回答

火花放电spark.executor.memory是每个核心还是每个节点？

、

我有一个节点，它有24个核心和124 in内存在我的星体集群中。当我将spark.executor.memory字段设置为80g时，它是希望每个节点使用80g内存还是每个核心？

浏览 2提问于2016-10-13得票数 0

回答已采纳

1回答

我们是否可以使用多个sparksessions从两个不同的hive2服务器访问表

、、

我们是否可以使用两个SparkSessions从两个不同的hive2服务器访问表，如下所示： val spark = SparkSession.builder().master("local") .appName("spark remote") .config("javax.jdo.option.ConnectionURL", "jdbc:mysql://192.168.175.160:3306/metastore?useSSL=false") .config("javax.jdo.option.Connect

浏览 11提问于2017-07-04得票数 0

回答已采纳

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

、、

我有一个包含字符串列的数据框，我想在其中创建多个列。这是我的输入数据，pagename是我的字符串列我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列的行。以下是输出- 我如何在spark中做到这一点？Scala或Python都适合我。下面的代码创建输入数据帧- scala> val df = spark.sql(s"""select 1 as id, "a:100 b:50

浏览 23提问于2021-06-02得票数 0

回答已采纳