Pyspark -如何在匹配后删除字符

Pyspark是一个基于Python的Spark编程接口，用于在大数据处理中进行分布式计算。它提供了丰富的功能和工具，可以处理大规模数据集，并支持并行计算和分布式数据处理。

在Pyspark中，要在匹配后删除字符，可以使用正则表达式和字符串函数来实现。下面是一个示例代码：

from pyspark.sql.functions import regexp_replace

# 创建一个示例数据集
data = [("John Doe",), ("Jane Smith",), ("Bob Johnson",)]
df = spark.createDataFrame(data, ["name"])

# 使用正则表达式和字符串函数删除字符
df = df.withColumn("name", regexp_replace(df.name, "o", ""))

# 显示结果
df.show()

上述代码中，我们使用regexp_replace函数来替换字符串中的字符。在这个例子中，我们将字符串中的字母"o"替换为空字符串。你可以根据自己的需求修改正则表达式和替换的字符。

Pyspark的优势在于它能够处理大规模数据集，并且具有高性能和可扩展性。它可以与其他Spark组件（如Spark SQL、Spark Streaming和MLlib）无缝集成，提供全面的大数据处理解决方案。

Pyspark的应用场景包括但不限于：

大规模数据处理和分析
机器学习和数据挖掘
实时流数据处理
图计算和图分析
日志分析和监控

对于Pyspark的学习和使用，腾讯云提供了相应的产品和服务支持。你可以使用腾讯云的云服务器CVM来搭建Pyspark环境，使用云数据库TencentDB来存储和管理数据，使用云函数SCF来实现Pyspark的自动化任务调度等。具体产品介绍和链接如下：

云服务器CVM：提供高性能、可扩展的云服务器实例，适用于Pyspark的计算环境搭建。
云数据库TencentDB：提供稳定可靠的云数据库服务，适用于Pyspark的数据存储和管理。
云函数SCF：提供事件驱动的无服务器计算服务，适用于Pyspark的自动化任务调度和处理。

希望以上信息能够帮助你理解Pyspark在匹配后删除字符的应用方法，并了解相关的腾讯云产品和服务。

如何在PySpark数据帧显示中设置显示精度

、

调用.show()时如何在PySpark中设置显示精度考虑以下示例： from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: sqrt(x), range(200, 205)) ) df = sqlCtx.createDataFrame(data, ["col1", "col2"]) df.select([f.avg(c).alias(c) for c i

浏览 5提问于2018-02-17得票数 13

回答已采纳

1回答

如何在docker容器中安装不同的python版本

、、

我在我的机器中安装了gettyimages/spark docker映像和jupyter/pyspark-notebook。但是，由于gettyimage/spark python版本为3.5.3，而jupyter/pyspark-notebook python版本为3.7，因此出现以下错误：例外情况: worker中的Python版本与驱动程序3.7中的版本不同，PySpark无法运行不同的次要versions.Please检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON。因此，我尝试升级gettyimage/spark映像的python版本

浏览 1提问于2019-08-16得票数 4

回答已采纳

3回答

如何在配置单元SQL中删除字符串中的分号

我正在尝试从字符串中删除分号";“。我应该在配置单元SQL中使用什么命令。我知道regexp_replace可能会work..but放什么？看起来；-特殊字符不起作用，但其他特殊字符，如，或:起作用。例如，数据看起来像这样 ;;;;;0123445 我希望数据看起来像这样 0123445 在这方面的任何帮助都将不胜感激。我一直在为此而苦苦挣扎。

浏览 2提问于2019-01-26得票数 1

2回答

使用Phoenix从PySpark更新HBase

、、、、

我正在尝试使用Phoenix连接器从PySpark读取和写入HBase。我已经看到中的示例代码复制了此处的示例代码，以便于参考： df.write \ .format("org.apache.phoenix.spark") \ .mode("overwrite") \ .option("table", "TABLE1") \ .option("zkUrl", "localhost:2181") \ .save() 我已经能够从pyspark读写到hbase了。然而，这个例子只给

浏览 5提问于2018-01-06得票数 0

1回答

如何替换pyspark中没有字母数字的字符？

、

这是我的密码。 %spark.pyspark jdbc_write(spark, spark.sql(""" SELECT Global_Order_Number__c , Infozeile__c FROM STAG.SF_CASE_TRANS """), JDBC_URLS['xyz_tera_utf8'], "DEV_STAG.SF_CASE", "abc", "1234") 我想排除Infozeile__c字段中不是A、A

浏览 5提问于2022-02-14得票数 1

回答已采纳

1回答

如何使用Jupyter选项内联启动pyspark？

、、、

我尝试使用Jupyter Lab选项(内联)运行pyspark，如下所示。 PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook --NotebookApp.notebook_dir='/' --NotebookApp.port=4444" $SPARK_HOME/bin/pyspark 这种方法的灵感来自于。但是，当执行该命令时，将从/root提供notebooks目录，并且端口仍为8888。我还将执行封装在一个作为的.sh (外壳)文件中。 #!/bin/b

浏览 22提问于2019-11-06得票数 1

1回答

有没有什么算法可以比较不同页面的DOM相似度？

、、

有没有人有这方面的经验？

浏览 0提问于2010-03-20得票数 1

1回答

如何在Pyspark中比较两个数据帧

、

c = df[df['CUSTOMER_EMAIL_ID'].isin(d.CUSTOMER_EMAIL_ID)] 如何在PySpark中编写相同的表达式？

浏览 6提问于2017-02-20得票数 2

1回答

读取.xlsx文件时出现PySpark错误：“无法将JSON字符串转换为字段。”

我是PySpark的新手，我试着在PySpark中读取excel文件，但得到了我无法理解的错误。请帮我解决这个问题。我已经附加了代码和错误。 f_name= 'EDI_matching_with_Nielsen_and_AFS_codes_v6.xlsx' path= base_path_nielsen + f_name schema_def= StructType([StructField('Orden', StringType(), 'True'), StructField('OPERATIONAL POINT', Stri

浏览 27提问于2020-02-24得票数 1

2回答

如何在Glue ETL中启用pySpark？

、

我有一个非常简单的Glue ETL Job，代码如下： from pyspark.context import SparkContext sc = SparkContext.getOrCreate() conf = sc.getConf() print(conf.toDebugString()) 在启用红移连接的情况下创建作业。当执行作业时，我得到： No module named pyspark.context 似乎都提到、指出并暗示了pyspark的可用性，但是为什么我的环境抱怨它没有pyspark呢？我遗漏了哪些步骤？最好的问候，Lim

浏览 56提问于2019-07-17得票数 0

回答已采纳

1回答

火花放电数据的模糊搜索

、、

我有一个大型csv文件(>9600万行)和七列。我想对其中一个列进行模糊搜索，并检索与输入字符串相似程度最高的记录。这个文件是由spark管理的，我通过pyspark将它加载到一些dataframe中。现在，我想使用像fuzzywuzzy这样的方法来提取与最佳匹配的行。但是，fuzzywuzzy函数提取返回一些我无法使用的内容： process.extract("appel", df.select(df['lowercase']), limit=10) 结果：[(Column<'lowercase'>, 44)] df是pys

浏览 9提问于2022-09-27得票数 0

2回答

如何使用火花放电中的regex从字符串中删除星体*

、

我刚开始PySpark，任务如下：我有以下几点意见：我需要使用正则表达式来删除标点符号和所有前尾空格和下划线。输出都是小写。我想出来的不是完整的： sentence = regexp_replace(trim(lower(column)), '\\*\s\W\s*\\*_', '') 结果是：我怎么才能修好这里的大梁？我这里需要用regexp_replace。非常感谢。

浏览 4提问于2016-07-21得票数 2

回答已采纳

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。例如： Column_1 column_2 null null null null 234 null 125 124 365 187 and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到一个数值。我们如何在pyspark中实现这一点呢？

浏览 1提问于2017-02-18得票数 56

回答已采纳

1回答

更改EMR集群中Livy使用的Python版本

、、

我知道和。我也看过然而，所有这些都行不通。Livy继续使用Python2.7，不管使用什么。这是在EMR集群上运行Livy 0.6.0。在hadoop用户、我的用户、根用户和EC2-用户中，我已经将PYSPARK_PYTHON环境变量更改为/usr/bin/python3。通过ssh登录到EMR主节点并运行pyspark将按预期启动python3。但是，Livy一直使用python2.7。我将export PYSPARK_PYTHON=/usr/bin/python3添加到/etc/spark/conf/spark-env.sh文件中。Livy一直在使用python2

浏览 6提问于2021-05-03得票数 2

1回答

如何在vscode regexp中转义“@”以进行语法突出显示

、、

我想突出显示收割机DAW中使用的一种编程语言的字符串。字符串将看起来像下面的@init @滑块。当我尝试在regxp中包含'@‘符号时，语法突出显示失败。我已经尝试使用'\@‘来转义它，如下所示，但这没有帮助。 { "name": "keyword.eel2", "match": "\\b(\@init|\@slider|\@block|\@sample|\@gfx)\\b" } 任何帮助都将不胜感激！

浏览 11提问于2019-06-24得票数 1

1回答

无法使用pyspark运行简单的hql文件

、、、、

我正在使用pyspark==2.4.3，我只想运行一个hql文件 use myDatabaseName; show tables; 下面是我尝试过的 from os.path import expanduser, join, abspath from pyspark.sql import SparkSession from pyspark.sql import Row # warehouse_location points to the default location for managed databases and tables warehouse_location = abspat

浏览 10提问于2020-01-26得票数 0

1回答

如何在pyspark中读取多级json？

、

**Json Structure is -:** aa.json [[{"foo":"test1"},{"foo1":"test21"}], [{"foo":"test2"},{"foo1":"test22"}], [{"foo":"test3"},{"foo1":"test23"}]] 读取DataFrame的代码： from pyspark.sql import SQLContext sqlCont

浏览 0提问于2018-12-19得票数 2

2回答

如何在单行中匹配正则表达式模式？

、

我有以下正则表达式和示例输入：正如你所看到的，它与第一个"yo“匹配。我只想让图案与"cut me“在同一行(第二个"yo")图案上匹配。如何确保正则表达式匹配只在同一行上？输出： Hi 预期输出(这才是我真正想要的)： Hi yo keep this here Keep this here

浏览 0提问于2014-03-19得票数 3

回答已采纳

1回答

无法读取csv文件

、、

我试着用这个pyspark代码读取一个csv文件： tr_df = spark.read.csv("/data/file.csv", header=True, inferSchema=True ) tr_df.head(5) 但我知道这个错误： ~/anaconda3/envs/naboo-env/lib/python3.6/site-packages/pyspark/sql/dataframe.py中的 ValueError跟踪(最近一次调用)->1 tr_df.head(5) 在

浏览 3提问于2019-09-26得票数 0

回答已采纳

1回答

使用UDF: SparkContext只能在驱动程序上创建和访问

、、

new是一个如下所示的rdd： [('hotel stinsen', '59.066', '15.1115'), ('ankaret hotel and restaurant', '58.6725', '17.0975'), ('quality hotel ekoxen', '58.40574', '15.62391'), ('hotel nordica', '63.8532', '15.5652'

浏览 8提问于2022-10-08得票数 -1

回答已采纳

2回答

将包含美元符号($)的子字符串替换为其他列值pyspark

、、、

我正在尝试使用列‘'$NUMBER'’中的值来替换各行的子字符串number。我试过了 from pyspark.sql.functions import udf from pyspark.sql.Types import StringType replace_udf = udf( lambda long_text, number: long_text.replace("$NUMBER", number), StringType() ) df = df.withColumn('long_text',replace_udf(co

浏览 149提问于2019-03-18得票数 2

回答已采纳

1回答

如何在sql的where子句中使用like和substring

、、、、

希望大家能帮我解释一下这个查询，为什么第一个查询返回结果，第二个却没有：编辑:第一个查询： select name from Items where name like '%abc%' 第二个查询： select name from Items where name like substring('''%abc%''',1,10) 为什么第一个返回结果，而第二个不返回任何结果？ substring('''%abc%''',1,10)='%abc%' 如果这背后有逻

浏览 0提问于2016-11-14得票数 5

回答已采纳

1回答

Pyspark -如何在匹配后删除字符

、、、

我有pyspark数据框架，其中我有一个类似这样的列。我想从字符串中删除/ccc。我在pyspark中尝试了几件事，但都不起作用。我需要为此使用UDF吗？ /aaa/bbb/ccc 在python中，我可以这样做。 %python "/".join("aaa/bbb/ccc".split("/")[:-1]) 我试着跟着他。但是，它会生成null from pyspark.sql.functions import concat_ws, udf, col def get_path(str): "/".join(str.sp

浏览 29提问于2021-08-06得票数 0

1回答

蜂房火花果日期比较

、、

我正在尝试将一个hiveQL查询转换为pyspark。我正在过滤日期和得到不同的结果，我想知道如何在pySpark中的行为，以匹配蜂巢。蜂箱查询是： SELECT COUNT(zip_cd) FROM table WHERE dt >= '2012-01-01'; 在pySpark中，我正在输入解释器： import pyspark.sql.functions as psf import datetime as dt hc = HiveContext(sc) table_df = hc.table('table') DateFrom = dt.datet

浏览 1提问于2016-11-16得票数 1

回答已采纳

1回答

如何在纱线客户端上运行jupyter的火花

、、

我已经安装了一个使用cloudera管理器和星火包部署的集群，当在shell中键入pyspark时，它仍然工作，但是在jupyter上运行下面的代码会引发异常码 import sys import py4j from pyspark.sql import SparkSession from pyspark import SparkContext, SparkConf conf = SparkConf() conf.setMaster('yarn-client') conf.setAppName('SPARK APP') sc = SparkContext(co

浏览 1提问于2019-02-14得票数 0

回答已采纳

1回答

无效日期:使用pySpark将CSV导入Cassandra时出错

、、、

我使用木星NoteBook运行pySpark代码将CSV文件导入Cassandrav3.11.3。越来越少的错误。 ... 1 more[![enter image description here][1]][1] 我已附上pySpark代码作为图片： [![pyspark_code][1]][1] 任何输入..。

浏览 3提问于2020-03-12得票数 1

1回答

星火版本3.3.0与卡夫卡连接

、、、、

我试图连接我的卡夫卡从火花，但得到一个错误:卡夫卡版本: 2.4.1火花版本: 3.3.0 我正在使用jupyter笔记本来执行下面的py行之有效的代码： from pyspark.sql.functions import * from pyspark.sql.types import * #import library import os from pyspark.sql import SparkSession os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-sql-ka

浏览 8提问于2022-08-23得票数 0

1回答

如何在pyspark中调用预测函数？

、、、

我正在将我的sklearn代码转换为pyspark，我能够在链接的帮助下做到这一点。现在我很难调用预测方法。在使用的sklearn中，下面的代码返回多播算法的值 predictions = p.predict_proba (['My text 1', 'My text 2')) totalItens = predictions.shape[0] for i in range(0, totalItens): print('PROD:->') print(sorted(zip(p.classes_, prediction

浏览 1提问于2018-12-01得票数 2

1回答

我们如何在Python3.6中初始化SparkSession和SparkContext？

、、、、

因此，我尝试使用以下代码在Python3.6中初始化SparkSession和SparkContext： from pyspark.sql import SparkSession from pyspark import SparkContext #Create a Spark Session SpSession = SparkSession \ .builder \ .master("local[2]") \ .appName("V2 Maestros") \ .config("spark.executor.memo

浏览 0提问于2017-05-08得票数 0

1回答

如何在VSO上查找Git分支删除的历史

、、

作为存储库清理的一部分，我的一些特性/用户分支被VSO中的人错误地删除了。是否有办法保留被谁删除的分支，以及是否有任何方法从vso git存储库中保留已删除的分支？

浏览 6提问于2018-01-05得票数 0

1回答

如何在木星笔记本启动(引导火花)上运行自定义Python脚本？

、、、

我发现了一些关于如何配置IPython笔记本以使用PySpark (如：)加载火花上下文变量sc的教程。问题是，由于我们现在使用的是朱庇特笔记本而不是IPython笔记本，所以我们不能像使用IPython那样创建一个安装脚本来加载Spark变量(应该位于~/.ipython/profile_pyspark/startup/00-pyspark-setup.py中)。问题是:木星笔记本上将在启动时执行脚本00-pyspark-setup.py的配置是什么？

浏览 6提问于2016-04-28得票数 7

1回答

在一列中存储不同的PySpark模式

、、、

我尝试从PySpark中的REST中提取不同的表。我跟踪了这个。我想要将不同的模式存储在一列中的中。下面是一个示例： import pyspark.sql.functions as F from pyspark.sql import Row from pyspark.sql.types import * A = [{"TableName": "Table1", "Schema": StructType([StructField("a", StringType()), StructField("b", Intege

浏览 16提问于2022-08-23得票数 0

回答已采纳

3回答

如何在PySpark dataframe中提取正则表达式模式的所有实例？

、、、

浏览 0提问于2019-08-26得票数 2

回答已采纳

5回答

如何在dataframe中执行str.strip并用inplace=true保存？

、、

我有n列的dataframe。我想对数据帧中某一列中的字符串执行一次剥离。我能够做到这一点，但我希望这种更改反映在原始数据帧中。数据帧:数据 Name 0 210123278414410005 1 101232784144610006 2 210123278414410007 3 21012-27841-410008 4 210123278414410009 After stripping: Name 0 10005 1 10006 2

浏览 0提问于2019-05-08得票数 0

2回答

PySpark不规则执行的主成分分析

、、

我正在用PySpark处理csv文件的PCA。我得到了一些奇怪的行为；我的代码有时运行良好，但有时返回此错误： File "C:/spark/spark-2.1.0-bin-hadoop2.7/bin/pca_final2.py", line 25, in <module> columns = (fileObj.first()).split(';') File "C:\spark\spark-2.1.0-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\rdd.py", line 1361,

浏览 1提问于2017-03-14得票数 4

回答已采纳

2回答

如何使用pyspark执行CQL查询

、、、

我想使用PySpark.But执行Cassandra CQL查询，我没有找到执行它的方法。我可以将整个表加载到dataframe并创建临时视图并查询它。 df = spark.read.format("org.apache.spark.sql.cassandra"). options(table="country_production2",keyspace="country").load() df.createOrReplaceTempView("Test") 请建议任何更好的方法，以便我可以在PySpark中执

浏览 17提问于2020-07-22得票数 0

4回答

如何在Java中将字符串转换为双精度

、、

我想要将字符串(例如$4.50)转换为双精度。我知道我可以使用Double.parseDouble()，但我假设只有当字符串不包含任何其他字符(如美元符号)时，它才有效。其目的是比较两个字符串(包含美元值和一个美元符号)，并确定哪个更大，哪个更小如何将这样的字符串转换为双精度？

浏览 1提问于2015-09-13得票数 2

3回答

在Regex中，如何在单词之间匹配？

我想写regex模式，它应该与字符串之间的字符串相匹配。例如：我有这样的regex模式 ^((?!mystring).)*$ 意思是匹配不包含我字串的单词。但我想让regex图案像这样匹配。 mystringabcdfrevrgf 正则匹配器应返回 abcdfrevrgf 我怎样才能做到这一点，请提前帮忙谢谢。答案： ((?!mystring)(.*))$

浏览 6提问于2011-11-16得票数 2

回答已采纳

2回答

如何根据大小更改列值

、、、

我在PySpark设置中有一个dataframe。我想更改一个列，比如它叫做A，它的数据类型是"string“。我想根据它们的长度来改变它的价值。特别是，如果一行中只有一个字符，则希望将0连接到末尾。否则，我们取默认值。“修改”列的名称必须仍然是A。这是用于使用PySpark3的木星笔记本。这就是我迄今尝试过的： df = df.withColumn("A", when(size(df.col("A")) == 1, concat(df.col("A"), lit("0"))).otherwise(df.col("

浏览 2提问于2019-06-17得票数 1

回答已采纳

1回答

如何在Databricks pyspark中导入Excel文件

、、、

我正在尝试将我的excel文件导入Azure-DataBricks机器中的PySpark，我必须将其移动到PySpark Dataframe。我无法执行此操作。获取错误 import pandas data = pandas.read_excel('/dbfs/FileStore/tables/Time_Payments.xlsx') df_data = sqlContext.createDataFrame(data) 执行上述操作时，出现以下错误。 Error : field Additional Information: Can not merge type <cla

浏览 2提问于2018-09-18得票数 0

1回答

如何在Pyspark中不使用API连接表的情况下执行子查询？

、、

我正在重写一些SQL代码，其中有一段代码使用子查询。我可以将其编写为连接，但想知道它是否可以在Pyspark中以类似的子查询方式完成。在SQL代码中使用子查询具有显著的性能优势，但是想知道这在Pyspark中是否会由于DAG中的优化而不相关。因此，如果有人能够解释相对性能权衡，这将是有帮助的，如果有权衡的话。逻辑非常简单:我有df_a，我想从df_b中提取一列，其中df_a和df_b在某个键上有匹配的索引。下面的代码不起作用，但目的是为了显示其意图。 df_a.select("df_a.key_1", "df_a.key_2", df_b.select(

浏览 1提问于2020-04-08得票数 0

1回答

如何使用PySpark的RegexTokenizer从字符串中删除数字？

、、

我想使用PySpark的RegexTokenizer从DataFrame列中删除5位或更多位的数字。我可以使用下面的代码提取这些数字，但有人知道我如何删除它们吗？我的代码： regexTokenizer = RegexTokenizer(inputCol="description", outputCol="tokenized_description", gaps=False,pattern="[0-9]{5,}") 如果字符串是"123abc 122323232"，我希望它去掉122323232，变成"123abc“

浏览 0提问于2019-02-13得票数 0

1回答

如何在linux中从字符串中打印特定的字符？

、、、

如何通过从整个字符串中减去一些字符来打印字符串中的某些字符。 ggc-clusterdb01.rvd.ukd.com ggc-clsdb02.rvd.ukd.com gg-akb.rvd.ukd.com 如何从上面的主机名中减去'01.rvd.ukd.com'或'02.rvd.ukd.com'、'03.rvd.ukd.com'..etc这样的字符，然后打印出ggc-clsdb或ggc-clusterdb之类的剩余名称。我试过很多种方法，但没有运气。帮我举个例子。

浏览 2提问于2013-12-31得票数 1

回答已采纳

1回答

如何在PySpark中随机生成/拆分数据

、、

Apache Spark中的以下Scala代码行将在8个分区中随机拆分数据： import org.apache.spark.sql.functions.rand df .repartition(8, col("person_country"), rand) .write .partitionBy("person_country") .csv(outputPath) 有人能给我演示一下如何用PySpark做同样的事情吗？我自己用下面的代码尝试过，但失败了 from pyspark.sql.functions import rand df\ .repar

浏览 53提问于2020-09-10得票数 0

1回答

如何在流水线RDD上使用flatMap()？

、、、

浏览 4提问于2016-03-30得票数 0

回答已采纳

2回答

如何在vim中匹配时忽略字符

、

我在过去的几天里一直在尝试Vim (windows7上的gvim)，我必须说它非常有趣，尽管它确实有一个陡峭的学习曲线。我现在有一个良好的构建_vimrc文件，所有感谢这个论坛，但我正在寻找一个特定的模式忽略技术。假设在一个文本文件中有一个字符串，如下所示： 10000000c9abcdef 在同一个文件中，我有相同的字符串，只是用:隔开:每2个字符， 10:00:00:00:c9:ab:cd:ef 或者，我有一行代码，比如， hostname portname switchname 以及 hostname_portname_switchname 如何让vim与10:00:00:00:c9

浏览 6提问于2013-08-01得票数 2

1回答

无法在Jupyter中运行pyspark

、、、

我安装了Windows 10，并按照下面的说明安装了spark：现在我打开我的jupyter笔记本，键入以下内容： import os import sys # Path for spark source folder os.environ['SPARK_HOME']="c:\\Spark" # Append pyspark to Python Path sys.path.append("C:\\Spark") sys.path.append("C:\\Spark\\python") sys.path.append(&#

浏览 0提问于2016-06-29得票数 1

2回答

使用火花从csv数据中删除特殊字符

、、

我希望使用PySpark从csv数据中删除特定的(例如@，&)特殊字符。我经历了优化火花()。然而，它正在删除所有的特殊字符。我想要删除特定的特殊字符从CSV数据使用火花。是否有任何内置函数或自定义函数或第三方librabies来实现此功能。提前谢谢。我尝试过的几个链接：

浏览 1提问于2018-02-14得票数 4

2回答

为什么下面的JavaScript正则表达式不能工作？

、、、

s='<img src="http://25.media.tumblr.com/xxxxx/tumblr_xxx_1280.jpg">' p=/(?=<img src=")http:\/\/\d*\.media\.tumblr\.com\/\w*\/?tumblr_\w*_\d{3,4}\.\w{3,3}(?=")/g s.match(p) # return null 但是，以下方法可以正常工作： p=/(<img src=")http:\/\/\d*\.media\.tumblr\.com\/\w*\/?tumb

浏览 0提问于2013-03-26得票数 1

回答已采纳

1回答

替换PySpark中的字符串

、、、

我有一个数据格式，带有欧洲格式的数字，我把它作为字符串导入。逗号为十进制，反之亦然- from pyspark.sql.functions import regexp_replace,col from pyspark.sql.types import FloatType df = spark.createDataFrame([('-1.269,75',)], ['revenue']) df.show() +---------+ | revenue| +---------+ |-1.269,75| +---------+ df.printSchema() roo

浏览 2提问于2018-10-31得票数 7

回答已采纳