regexp_extract函数- Spark scala获取错误

、、、、

我正在使用regexp_extract Spark2.2SQL函数来匹配11个或更多重复字符的字符串。.)\1{10,}$spark.sql("SELECT REGEXP_EXTRACT('hhhhhhhhhhhhh', '^(.)\\1{10,}$', 1) as ExtractedChar好的，让我们确保regexp

浏览 8提问于2017-09-11得票数 4

回答已采纳

1回答

、

我写了下面这样的语句，但我没有得到输出 withColumn("message_comment_txt_amount",regexp_extract(col("message_comment_txt")i)toward",1)) 我没有得到想要的预期输出 18.26 1119.00 请让我知道确切的错误在哪里。

浏览 66提问于2020-10-29得票数 0

1回答

Apache Spark:如何使用正则表达式将数据框列转换为另一个数据框？

、、

.]+)""".r 你能帮助我在Scala中编写代码来转换数据帧吗？我对Spark和Scala完全陌生，语法也很难。谢谢!

浏览 1提问于2015-08-20得票数 8

回答已采纳

1回答

如何在Spark中从文本文件创建dataFame

、

我在HDFS中有一个文本文件，格式如下：0035029070999991902010113004+64333+023450FM-12+00001N9-01001+381ID | Column0029

浏览 0提问于2020-07-24得票数 0

2回答

Spark列rlike将int转换为boolean

、、、

所以我使用regex和Spark的列rlike从字符串中提取最后一个数字。问题是，在它提取数字后，它会自动转换为布尔值。有没有办法阻止它自动转换为布尔值？

浏览 20提问于2017-07-26得票数 1

回答已采纳

4回答

SQL表达式中的Apache火花startsWith

、、

在Apache中，我可以使用startsWith函数来测试列的值：在Spark表达式中也可以这样做吗

浏览 0提问于2019-01-03得票数 6

回答已采纳

1回答

我在S3中有一个数据集(~100 by )，它有一个时间戳，后面跟着一个JSON字符串，而不仅仅是一个纯JSON字符串。这些数据被压缩了。是否存在将这些数据读入Dataframe而不重新格式化数据以移除时间戳的问题？我根本不需要时间戳，它是可以忽略的。以下是数据的一个示例：我通常使用胶水库read_from_options读取它的数据，但是我没有看到任何忽略时间戳的选项，而只是读取JSON字符串。我不确定火花手

浏览 0提问于2019-07-02得票数 0

回答已采纳

3回答

Spark SQL对列的模式进行区分大小写的过滤器

、、、、

如何使用spark sql filter作为基于模式的列的区分大小写的过滤器。"Aaaa AA" => 'Leds ST' , 'Pear QA', 'Lear QA'"aaaa" => 'adaz' 如何使用spark sql获得此结果

浏览 94提问于2018-09-20得票数 2

回答已采纳

2回答

在scala上提取表达式失败

、、、

*,(\d+)', 1) AS BIGINT) AS p_id,FROM some.dataset LIMIT 10FAILED, exitCode: 15, (r

浏览 0提问于2020-12-21得票数 1

回答已采纳

1回答

基于场景在spark* sql中拆分字符串列*

、、

--一种特殊的列模式，类似于这个11-Mango78-Pineapple和我想用它做两列10 Applenull Orange45 GrapeSELECT split("10-Apple",'-',2)但是，当我在没有分隔符(-)的字符串下面拆分时 SELECT split("Orange

浏览 6提问于2021-09-08得票数 2

回答已采纳

2回答

如何基于字符计数解析字符串？

、

filename, 57, 2),SET thefile = SUBSTRING(filename, 71, 99) 我想使用Scala

浏览 0提问于2020-01-02得票数 1

回答已采纳

1回答

如何在Apache Spark中的Dataframe上运行Python中的Regex

、、

df是准则如下：m = re.search("[Pp]ython", df)我收到以下错误消息： TypeError: expected string

浏览 0提问于2021-04-29得票数 1

回答已采纳

2回答

如何将列拆分为两列？

、、

这是dataframe dfdf.show()返回： +--

浏览 9提问于2017-06-25得票数 2

回答已采纳

1回答

必须提取单词的开头，将符号^字符的最后一次出现以regex提取结束。

、、

我想在蜂巢中使用regex_replace或regexp_extract，其中只能获得特殊字符"^"的第一次n事件，但上次出现之后的最后一次事件和文本除外。F例如：我只涉及正则表达式，而不是字符串函数或

浏览 0提问于2018-06-10得票数 2

回答已采纳

2回答

UDF用于提取scala中的字符串

、

这是我在scala的代码， val arr = urn.split(":").map(_.trim)val out = res.split(",").map(_.trim) fin.toString它以UDF的形式运行，并引发以下错误： org.apache.spark.SparkException: Failed to execute use

浏览 4提问于2020-11-03得票数 0

回答已采纳

2回答

REGEX_REPLACE的spark、hive和scala不能像预期的那样工作

、、、、

我有一个字符串AF1234，我想打印1234，有时我只得到像25和23这样的数字，我也想要这些数字，因此我尝试使用regex_replace来检查字符串，以下是语法： select substring(nvl(nullif(regexp_replace(regexp_replace('AF1234','A$',''),'[[:digit:]]',''),''),'XX'),1,2) 这在黑斑鹿中有效，但在蜂箱中无效。

浏览 16提问于2020-07-02得票数 1

3回答

如何在spark* 2.0中使用sql获取正确的子字符串*

例如，如果我有一个像"2.450“这样的字符串列值，我想从该列中获得正确的2个字符"50”，如何使用spark 2.0.1中的sql获取它。

浏览 3提问于2016-10-19得票数 4

回答已采纳

2回答

如何基于不同的字符串模式使用Spark在dataframe中创建新列

、、

val extractedDF = df .withColumn("a2", regexp_extract($"_raw", "\\[(.*?)\\] \\[(.*?)\\] \\[(.*?)\\]",3)) .withColumn("a3",

浏览 1提问于2019-03-20得票数 1

回答已采纳

3回答

根据用另一列的regex提取的内容，有条件地填充火花数据格式中的新列

、、

我知道我可以用when函数来做这样的事情： F.when(file.oldColumn < 5, 'Lower，如果'oldColumn‘不只是整数，而是包含了字符串，我需要从其中提取整数，该怎么办：到目前为止，我设法使用regexp_extract

浏览 0提问于2019-01-24得票数 1

回答已采纳

2回答

SparkR regexp_extract函数问题

、、

数据问题Reprexsc <- spark_connect(master = "local", spark_home = spark_home

浏览 11提问于2020-06-08得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark 2.2/木星笔记本SQL regexp_extract函数不匹配regex模式