spark读取云服务器上的文件_spark从单独的文件读取模式_固定宽度文件中的Spark读取 - 腾讯云开发者社区

、、、、

同时，数据将通过用于分析和ML的流和批处理(持久)管道提供。我读到了谷歌云DataFlow，云存储，BigQuery和Pub。但是设置有一些限制，例如pub-sub要求客户端使用https端点，而应用部署需要使用web服务器，例如app、webapp或GCE上<e

浏览 2提问于2016-02-16得票数 0

2回答

如何在没有火花的情况下直接从天蓝色数据中读取拼花文件？

、

我对Azure云很陌生，并且在datalake中存储了一些.parquet数据文件，我想使用python在dataframe (熊猫或dask)中阅读它们。除了使用spark之外，有没有其他方法来读取python中的parquet文件？我不想下载本地机器上的数据，而是直接读取它们。有什么建议吗？

浏览 7提问于2021-12-07得票数 0

回答已采纳

1回答

Spark从远程服务器读取文件

我有一个节点spark集群，并使用WholeTextFile api或Textfile API读取和解析文件。我可以知道spark允许从远程服务器读取文件吗？或者文件在物理上需要存在于Spark节点上。

浏览 5提问于2017-03-29得票数 1

1回答

基于google云存储的Spark结构化流媒体

、、、

我正在运行几个使用google云存储上的Avro数据的batch Spark管道。我需要更新一些管道，使其更实时，并且想知道spark structured是否可以以流的方式直接消费来自gcs的文件，即parkContext.readstream.from(...)可以应用于从外部源的存储桶下连续生成的Avro文件。Apache beam已经有像File.MatchAll().co

浏览 1提问于2018-01-05得票数 2

1回答

任务在community.cloud.databricks中不可序列化

、、

Databricks社区云抛出了一个org.apache.spark.SparkException: Task not serializable异常，我的本地机器没有抛出执行相同的代码。代码来自《行动中的火花》一书。代码所做的是读取一个包含github活动数据的json文件，然后读取一个包含来自一家虚构公司的员工用户名的文件，并最终根据推送次数对员工进行排名。为了

浏览 40提问于2019-10-06得票数 1

1回答

我正在谷歌云上运行一个星火集群，并在每个作业中上传一个配置文件。使用submit命令上载的文件的路径是什么？在下面的示例中，如何在初始化Configuration.properties之前读取SparkContext文件？我在用Scala。gcloud dataproc jobs submit spark --cluster my-cluster --class MyJob --files config/Configur

浏览 4提问于2017-01-16得票数 7

回答已采纳

2回答

如何在Cloud Dataproc上安装Apache Spark的自定义版本

、、

出于这样或那样的原因，我想安装一个与上的版本不同的。如何在安装自定义版本的Spark的同时保持与Cloud Dataproc工具的兼容性？

浏览 3提问于2018-04-12得票数 3

1回答

从SQL Server到MongoDB地图集的ETL管道

、、、、

我需要你的意见如何使数据管道从SQL Server到MongoDB阿特拉斯云。在这个管道中，我完成了许多复杂的转换甚至分析和故障检测任务，这些任务需要在当前数据和之前处理的数据之间进行比较。有一些误差标准只能在新数据与以前处理的数据进行比较时才能计算。因此，管道不只是单向的。可以在AWS上使用Kinesis- Lambda管道完成，还是在我们公司的服务器上使用Kafka和Spark更好，然后将结果上

浏览 12提问于2021-07-21得票数 0

回答已采纳

1回答

Delta Lake将多个文件压缩为单个文件

、

我目前正在探索delta，这是由databricks开源的。我正在读取kafka数据，并使用delta lake格式将其写入为流。Delta lake在从kafka进行流式写入的过程中创建了许多文件，我觉得kafka是hdfs文件系统的核心。我已经尝试过将多个文件压缩为单个文件。val spark = SparkSession.builder .appName(

浏览 16提问于2019-10-13得票数 4

回答已采纳

2回答

如何创建到远程Spark服务器的连接，并从运行在本地机器上的ipython中读取数据？

、、、

我正在本地计算机上运行ipython notebook，并希望创建到远程Spark服务器i.p的连接。然后从remote server上存在的hdfs文件夹中读取数据。如何从本地ipython notebook创建到Spark服务器的远程连接

浏览 3提问于2015-11-24得票数 6

1回答

请教一下大数据分析过程中关于如何接收数据的问题？

、、、、

在学习spark，在本地用虚拟机搭建了一个3台机器的测试集群，然后有一台云服务器上每天都有一个tomcat网站访问日志文件，如何去把这个日志传文件传到虚拟机的测试集群的hdfs上，有没有什么工具可以用，

浏览 300提问于2018-10-11

1回答

为什么Spark驱动读取本地文件

、、、

我使用独立的Spark Cluster。我使用Luigi (在服务器A上)提交我的应用程序并进行部署(客户端模式)。sc.textFile(&

浏览 8提问于2017-03-10得票数 0

回答已采纳

1回答

通用starter Hadoop/ Spark fiware-cosmos问题

、、

我有一些关于固件的一般性问题-宇宙，如果它们是基本的，很抱歉，但我正在努力了解宇宙的架构和使用。可以使用哪些Hadoop服务源？我想我读到Cosmos支持Cloudera CDH服务和原始Hadoop服务器服务？那么HortonWorks或MapR呢？我知道非标准文件系统可以与Hadoop一起使用，例如MapR-FS，这样的

浏览 7提问于2016-05-27得票数 1

3回答

我们可以使用Apache Spark来存储数据吗？或者它只是一个数据处理工具？

我是Apache Spark的新手，我想知道是否可以使用Apache Spark来存储数据。或者它只是一个处理工具？谢谢你花时间，萨蒂亚

浏览 4提问于2016-01-13得票数 2

2回答

Azure中Exe的慢速执行

、

我面临在Azure平台上执行exe的速度慢的问题读取步骤5中生成的文本文件数据

浏览 2提问于2013-05-13得票数 1

1回答

Pyspark :云存储中来自多个文件的增量ETL

、、、、

我有大约500-700 csv文件的日志加载每周。文件名是每周随机生成的。这些文件存储在google云存储上，pyspark在google dataproc上运行，有几个工作节点。我已经创建了一个pyspark文件，它基本上只是迭代文件并按原样加载到bigquery中。我以为我会在bigquery表上看到增量加载，但似乎pyspark会将整个gz输入文件合并到da

浏览 22提问于2021-10-10得票数 1

1回答

为文本找到多个源

、、、

我有一个Java，它来自于一个Java程序，如果我在IntelliJ的想法中在本地运行这个Java程序，它就运行得很好。在inputPath中有一些csv文件。使用spark-submit运行时的错误消息如下所示： org.apache.spark.sql.AnalysisException: Multiple sources found for text (为什么代码仅在spark-submit模式下运行失败，而在其他运

浏览 14提问于2021-03-16得票数 1

回答已采纳

1回答

创建Apache Spark支持的“即服务”应用程序

、、

问题在于如何创建基于Windows桌面和/或基于web的应用程序客户端，该客户端能够在运行时连接并与包含Spark应用程序(本地或前提云分发版)的服务器进行通信。如有任何建议简单的</e

浏览 1提问于2015-01-12得票数 2

1回答

使用本地Pyspark从GCS打开镶木

、、

我在谷歌云存储上有一个文件夹，里面有几个拼图文件。我安装在我的VM pyspark中，现在我想读取拼图文件。下面是我的代码： from pyspark.sql import SparkSession .builder\

浏览 26提问于2019-12-11得票数 0

2回答

我们可以在NodeJs中使用任何fs方法从服务器路径读取文件吗

、

在我的例子中，我需要从云存储/bucket中读取文件/icon.png，这是一个基于令牌的URL/路径。Token驻留在请求的头部。我尝试使用fs.readFile('serverpath')，但它返回错误为'ENOENT‘，即“不存在这样的文件或目录”，但该路径上存在文件。因此，这些方法是否有资格进行调用并从服务器读取<

浏览 25提问于2019-05-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用于NRT数据应用的Google

如何在没有火花的情况下直接从天蓝色数据中读取拼花文件？

Spark从远程服务器读取文件

基于google云存储的Spark结构化流媒体

任务在community.cloud.databricks中不可序列化

如何获取上传文件的路径

如何在Cloud Dataproc上安装Apache Spark的自定义版本

从SQL Server到MongoDB地图集的ETL管道

Delta Lake将多个文件压缩为单个文件

如何创建到远程Spark服务器的连接，并从运行在本地机器上的ipython中读取数据？

请教一下大数据分析过程中关于如何接收数据的问题？

为什么Spark驱动读取本地文件

通用starter Hadoop/ Spark fiware-cosmos问题

我们可以使用Apache Spark来存储数据吗？或者它只是一个数据处理工具？

Azure中Exe的慢速执行

Pyspark :云存储中来自多个文件的增量ETL

为文本找到多个源

创建Apache Spark支持的“即服务”应用程序

使用本地Pyspark从GCS打开镶木

我们可以在NodeJs中使用任何fs方法从服务器路径读取文件吗

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐