如何在Scala中将字符串读取为多边形(在Databricks上)

在Scala中，可以使用Databricks提供的库和函数来将字符串读取为多边形。以下是一个示例代码：

import com.databricks.spark.avro._
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.clustering.KMeans

// 创建SparkSession
val spark = SparkSession.builder()
  .appName("Read String as Polygon")
  .getOrCreate()

// 定义多边形的Schema
val polygonSchema = StructType(Seq(
  StructField("id", IntegerType, nullable = false),
  StructField("polygon", StringType, nullable = false)
))

// 读取包含多边形字符串的数据
val polygonData = spark.read
  .format("csv")
  .option("header", "true")
  .schema(polygonSchema)
  .load("path/to/your/data.csv")

// 将字符串转换为多边形
val polygonDF = polygonData.withColumn("polygon", from_avro($"polygon"))

// 显示多边形数据
polygonDF.show()

// 进一步处理多边形数据，例如进行聚类分析
val assembler = new VectorAssembler()
  .setInputCols(Array("x", "y"))
  .setOutputCol("features")

val vectorizedDF = assembler.transform(polygonDF)

val kmeans = new KMeans()
  .setK(3)
  .setFeaturesCol("features")
  .setPredictionCol("cluster")

val model = kmeans.fit(vectorizedDF)

val clusteredDF = model.transform(vectorizedDF)

// 显示聚类结果
clusteredDF.show()

在上述代码中，我们首先创建了一个SparkSession，然后定义了多边形的Schema。接下来，使用spark.read函数从CSV文件中读取包含多边形字符串的数据，并将其转换为DataFrame。然后，我们可以对多边形数据进行进一步的处理，例如使用VectorAssembler将多边形的坐标转换为特征向量，然后使用KMeans算法进行聚类分析。

请注意，上述代码中的路径"path/to/your/data.csv"需要替换为实际的数据文件路径。

对于腾讯云相关产品和产品介绍链接地址，由于要求不能提及具体的云计算品牌商，因此无法提供相关链接。但是，腾讯云提供了一系列云计算服务，包括云服务器、云数据库、云存储等，您可以在腾讯云官方网站上查找相关产品和文档。

如何在Scala中将字符串读取为多边形(在Databricks上)

、、、、

我有一个包含两列的数据集:一列是位置名称，另一列是具有相应位置轮廓坐标的多边形。此数据集来自我使用Scala加载到Databricks中的csv文件。使用此方法，我需要在为每个位置指定的多边形内放置另一个包含经纬点的数据集(可能使用麦哲伦库)，但是当第二列需要以某种方式转换为多边形以使麦哲伦操作工作时，文件中的两列都被读取为字符串。我已经尝试过将其转换为多边形/形状，但到目前为止都没有成功。.| +-------------

浏览 20提问于2019-04-15得票数 0

1回答

使用sql将数据库中的字符串转换为日期时间格式

、、

在databricks中将字符串转换为日期时间格式时，我遇到了错误：select to_date('01Jan1971:00:00:00','DDMONYYYY:HH:MI:SS')Errorpatterns are unsupported since Spark 3.0, detected: Y, Please use the SQL function EXTRACT instead com.databricks.backend.common.rpc.

浏览 9提问于2022-02-25得票数 0

回答已采纳

1回答

Scala火花函数，如group，描述()返回错误的结果

、、

我使用intellij上的Scala来分析一个csv文件，该文件有672,112条记录。文件可在链接- 上使用。文件名: kiva_loans.csv月刊(更多的(较少频繁)) 出于测试的目的，我搜索屏幕截图中给出的值，并将这些行放在一个单独

浏览 2提问于2021-05-19得票数 1

1回答

使用自定义模式创建一个拼花文件

、、

我有这样的要求：我们有一个API，它将给我们列的模式。emp_name是字符串(50)，emp_salary是十进制(7，4)，joining_date是时间戳等等。我必须使用来自API的模式创建一个parquet文件。我们如何在</em

浏览 4提问于2022-07-30得票数 -1

回答已采纳

1回答

将文件从SFTP传输到ADLS

、、、、

我们已经将数据库中的ADLS Gen2存储配置为作为abfss URL访问。我们在Databricks中使用scala。我们应该如何在get步骤中将abfss路径作为FileSystemFile对象传递？

浏览 3提问于2021-06-29得票数 1

2回答

数据库错误java.lang.NoSuchMethodError: java.lang.NoSuchMethodError

、、、

我正在尝试从以下链接运行一些示例代码：import org.apache.spark.sql.SparkSession("three", 8.0)然后，我尝试通过运行df.select("id").map(_.getString(0)).col

浏览 6提问于2020-02-29得票数 3

回答已采纳

1回答

Azure Databricks* -检测到接收错误Zip炸弹！文件将超过最大值。压缩文件大小与扩展数据大小的比率*

、

主要是因为我在Azure Databricks上遇到了这个错误。我正在尝试读取位于ADLS管理区域上的Excel文件。大约有25个excel文件。我的程序遍历excel文件，并将它们读取到PySpark数据帧中。然而，在阅读了大约9个excel文件后，我收到以下错误- Py4JJavaError: An error occurred while calling o1481.load. : java.io.IOException但是当我尝试使用下面简单的import语句

浏览 473提问于2020-07-23得票数 0

1回答

在木星笔记本中使用PySpark读取XML

、、、

我试图读取XML文件：df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml')并获得以下错误：我试过：$spark_HOME/bin/spark shell-软件包com.

浏览 2提问于2020-09-18得票数 2

1回答

如何在从SQL Server读取数据时更改: spark.read.jdbc使用的默认时区

、、

我使用的是Databricks Runtime 4.2 (包括Apache Spark 2.3.1、Scala 2.11)val data_frame =val(，，) 我的源表上的所有SQL Server日期时间列都映射到数据框中的时间戳列，默认时区为+0000。

浏览 1提问于2018-07-18得票数 3

1回答

Spark:如何将rdd.RDD[String]转换为rdd.RDD[(Array[Byte]，Array[Byte])]

、、

我正在使用spark读取压缩文件这为我提供了RDD[string]形式的数据。如何在scala中将其转换为RDD[(Array[Byte], Array[Byte])]？我在spark上使用terasort。要解决此问题，请将以下代码添加到TeraSort.scala文件 sorted.saveAsHadoopFile(outputFile,class

浏览 3提问于2016-10-26得票数 0

1回答

从dbfs (> 2gb )复制和读取文件的databricks错误

、、

到目前为止，我使用的是下面一行，在使用java之后在dbfs上检查它的大小时，它仍然显示为6GB，所以我假设它是正确的。但是，当我做一个spark.read.csv(samplePath)时，它只读取1800万行，而不是6600万行。还有其他地方可以让我在scala代码中使用dbutils在databricks上运行吗？dbfs上搜索此路径。如何确保它可以从驱动程序内存而不是dbfs读取</

浏览 1提问于2019-07-19得票数 1

回答已采纳

2回答

DateType列从CSV文件中读取为StringType，即使提供了适当的模式。

、、、、

我试图使用PySpark读取CSV文件，其中包含格式为"dd/MM/yyyy“的DateType字段。我在模式定义中将字段指定为DateType()，并在DataFrame CSV读取器中提供了"dateFormat“选项。但是，读取后的输出数据为StringType()字段，而不是DateType()。Community Edition 7.3 LTS (includes Apache Spark 3.0.1, Scal

浏览 6提问于2022-06-26得票数 1

回答已采纳

1回答

Scala和JavaScript的JSON.stringify

、、、、

当我在Scala中对一个对象进行字符串赋值时，得到的字符串与JavaScript在试图解析该字符串时所期望的字符串不匹配。例如，当Scala的JSON.stringify()的值被添加到"new Cookie()“实例中，并且cookie被JavaScript读取时，Scala对象可能如下所示。"{\"id\":\"ABCD\"}" 但是，Java

浏览 1提问于2015-06-02得票数 1

1回答

在Spark +2.4中读取CSV时如何设置时间戳格式

、、、、

我在Azure上有一个Databricks 5.3集群，它运行Apache Spark 2.4.0和Scala 2.11。/07/2019 14:55:45.343-08:00, BatteryB, 0.50 .load("path/to/file.csv") csvD

浏览 39提问于2019-05-10得票数 1

回答已采纳

1回答

在数据库中读取GeoJSON，没有挂载点集

、、、

我们最近对从Databricks连接ADLS的方式进行了更改，这些数据库删除了以前在环境中建立的挂载点。我们使用databricks查找多边形中的点，如databricks博客中所示：nights = gpd.read_fileGeoSpatial/Hex_Nights_400Buffer.geojson")但是，

浏览 5提问于2022-01-27得票数 1

回答已采纳

3回答

如何将php time()转换为android时间戳？

、

我的服务器以php time()字符串的形式发送文件上次更新时间据我所知，android读取时间戳以毫秒为单位我的问题是如何将phptime()转换为android时间戳，以及如何在android应用程序中将转换后的时间戳转换为人类可读的时间戳？

浏览 2提问于2013-04-07得票数 2

回答已采纳

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。"name": "Green", "max": 1000000, } ] 在CosmosD

浏览 29提问于2019-05-13得票数 4

回答已采纳

2回答

由: java.time.format.DateTimeParseException:文本'2020-05-12 10:23:45‘无法解析，未解析文本位于索引10

、、

UDF的输入将是来自在yyyy-MM-dd hh:MM:ss中存储日期时间的Dataframe的字符串列。但是当我运行display(udf_new_df1)时，我得到了这个错误-(在Databricks上) org.apache.spark.SparkExcept

浏览 3提问于2020-07-02得票数 1

回答已采纳

4回答

Spark sql中的变量

、、

因为在SQL Server中，我们可以像declare @sparksql='<any query/value/string>'一样声明变量，但是在spark sql中可以使用什么替代方法。这样我们就不需要硬编码任何值/查询/字符串。

浏览 541提问于2020-11-26得票数 3

1回答

使用Scala/pysprak从Zip文件中读取内容，还可以从Databricks上读取内容，并将文件存储在ADLS上

、、、、

此zip文件夹位于Azure Data Lake Storage上，并使用服务原则将其挂载在DBFS Databricks文件系统上。请建议一种直接读取txt文件并将其存储为spark Dataframe的方法。我尝试过使用python代码，但直接从python中读取时出现了error - Error tokenizing data.，dataframe应该包含所有数据，它还应该显示一些数据，并且不应该挂起Databricks集群。需要Scal

浏览 35提问于2019-09-19得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Scala中将字符串读取为多边形(在Databricks上)

相关·内容

如何在Scala中将字符串读取为多边形(在Databricks上)

使用sql将数据库中的字符串转换为日期时间格式

Scala火花函数，如group，描述()返回错误的结果

使用自定义模式创建一个拼花文件

将文件从SFTP传输到ADLS

数据库错误java.lang.NoSuchMethodError: java.lang.NoSuchMethodError

Azure Databricks* -检测到接收错误Zip炸弹！文件将超过最大值。压缩文件大小与扩展数据大小的比率*

在木星笔记本中使用PySpark读取XML

如何在从SQL Server读取数据时更改: spark.read.jdbc使用的默认时区

Spark:如何将rdd.RDD[String]转换为rdd.RDD[(Array[Byte]，Array[Byte])]

从dbfs (> 2gb )复制和读取文件的databricks错误

DateType列从CSV文件中读取为StringType，即使提供了适当的模式。

Scala和JavaScript的JSON.stringify

在Spark +2.4中读取CSV时如何设置时间戳格式

在数据库中读取GeoJSON，没有挂载点集

如何将php time()转换为android时间戳？

使用Pyspark从数组中读取JSON项？

由: java.time.format.DateTimeParseException:文本'2020-05-12 10:23:45‘无法解析，未解析文本位于索引10

Spark sql中的变量

使用Scala/pysprak从Zip文件中读取内容，还可以从Databricks上读取内容，并将文件存储在ADLS上

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐