使用fread()和grep将csv文件从HDFS读取到R中--丢失列名

、、

我一直在尝试使用data.table包将大的csv文件从HDFS读取到R中，因为在我的经验中，它比rhdfs包快得多。我已经成功地使用以下命令读取了整个文件： data <- fread("/usr/bin/hadoop fs -text /path/to/the/file.<e

浏览 2提问于2016-08-09得票数 2

4回答

导入之前筛选特定值的CSV文件

我有一个文件夹，里面有数千个逗号分隔的CSV文件，总共有几十个GB。每个文件包含许多记录，我想根据第一个字段中的值(例如，aa、bb、cc等)分别分离和处理这些记录。目前，我正在将所有文件导入一个dataframe中，然后在R中将其设置为更小的、单独的数据文件。问题是，这是非常内存密集型的-我想在导入过程中过滤第一列，而不是所有数据都在内存中。这是我目前的代码：

浏览 4提问于2020-07-28得票数 0

回答已采纳

7回答

hadoop将本地文件系统文件夹拷贝到HDFS

、

我需要将一个文件夹从本地文件系统复制到HDFS。我找不到任何将文件夹(包括其所有子文件夹)移动到HDFS的示例 $ hadoop fs -copyFromLocal /home/ubuntu/Source-Folder-To-Copy HDFS-URI

浏览 0提问于2015-01-29得票数 76

1回答

R，fread CSV --如何保持单元格值中的断线？

、

我有一个CSV文件，我正在使用fread读取一个R脚本。得到的变量是一个向量，这是我在流程的下一步所需要的。我的CSV文件中有一些值，比如'Energy \nElectricity'，其目的是将这些值作为图表的标签，由于格式化的原因，在'Energy'和'Electricity'之间(在本例中)之间有一个行间隔但是，当我使用frea

浏览 0提问于2018-06-15得票数 0

回答已采纳

2回答

如何匹配File1中的列以获得文件2中相应的fasta序列？

、、、、

请问如何将File中第一列的所有值与File 2中的行文本匹配，以便复制文件1中所有对象ID的fasta序列？1.csv文件NODE_142_length_92872_cov_11.2497,92872,2005469NODE_775_length_33402_cov_18.9306,33402,1147 NODE_1008_length

浏览 0提问于2018-10-11得票数 1

2回答

配置单元-外部表和csv数据

、、

我需要你的一些帮助来解决一个关于从hive重新引用数据的问题。以下情况:我将CSV文件data.csv导入hadoop。现在，我发现了许多使用外部表在csv文件之上创建模式的代码片段。我的问题是，hive如何知道外部表的模式连接到data.csv。在示例中，我找不到对csv文件的引用。sample_1.csv在this hive example中

浏览 8提问于2020-05-03得票数 0

1回答

sed/awk -返回与第二列中某些字符串匹配的行

、

我在HDFS中有一个csv文件，我正在使用fread()将其读入R。我不使用grep，因为它不保留标题。我也尝试过使用awk，但在只对条件进行过滤方面没有任何进展： fread("hadoop fs -text /path/to/file.csv | awk '$2 == 2MS-US'", fill=TRUE任何关于使用

浏览 0提问于2016-08-09得票数 1

回答已采纳

2回答

如何在csv文件中找到特定数据

、、

我有很多csv文件，我想在每个文件中找到this.because中的一些数据--数据位置不同，所以我想知道如何在不同的csv文件中找到红色框中的数据。在csv文件中，它包含相同的数据，比如不同的月份，我的想法是在csv文件中找到EnergyconsumptionElectricallyNaturalgasmonthly，然后反馈位置，根据位置选择红框数据

浏览 0提问于2018-10-18得票数 1

回答已采纳

1回答

R使用fread colClasses或skip参数读取没有列标题的csv

、、、

我希望能够跳过在v1.8.9中通过data.table的fread函数读取到R中的列。但是我正在读取的csv没有列标题…，这对于fread来说似乎是一个问题……有没有一种方法可以只指定我不需要特定的列？并使用fread将csv读<em

浏览 2提问于2013-07-10得票数 10

回答已采纳

2回答

如何在fread中指定变量文件名

、

我有一个R脚本，它将几个文本文件读入data.tables中。我使用一个for循环来逐步遍历文件列表来读取每个文件，这很好。="#")) dta <-rbind(dta,dt)为了加快速度，我决定尝试使用data.table包中的fread方法。我还决定使用grep命令来帮助操作， dta <- data.tab

浏览 4提问于2015-09-02得票数 3

回答已采纳

2回答

在导入csv列的子集时，R中最有效的读取csv函数/包是什么？

、、、、

我正在尝试将csv加载到R中，即大约180 k行和c9k列。我只需要一个c.100列的子集，并且知道我需要的列的名称。这个的答案涵盖了在导入csv时选择列子集的许多不同选项。使用这些答案，以及我自己的知识，我尝试使用和 (来自 )、 (来自 )和 (来自 )。所有这些函数似乎都导入了整个csv，然后对列进行了子集--这是非常低效率的，因为我只需要一小部分列。我还尝试使用来自的，这

浏览 4提问于2020-11-05得票数 1

回答已采纳

3回答

fread无法读取第一列为空的.csv文件

、、

假设我有第一个如下所示的test.csv如果我尝试使用read.csv来读取它，它工作得很好。read.csv("test.csv",header=FALSE)#1 NA a b c d e#In read.tableheader = header, sep = sep, quote = quote, : # incomplete final line found b

浏览 2提问于2014-03-12得票数 12

1回答

当hdfs中存在xlsx文件时，将xlsx文件转换为R中的csv文件

、

我想知道如何使用R脚本将驻留在hdfs中的.xlsx文件转换为.csv文件。我尝试使用XLConnect和xlsx包，但是它给了我错误的“文件找不到”，我使用上面的包在R脚本中提供.csv位置作为输入，我能够使用R脚本(read.csv())从HDFS读取.

浏览 3提问于2016-11-24得票数 0

2回答

以编程方式从CSV文件格式创建HBase表并加载其内容

、、、、

嗨，我是hadoop的新手，我正在尝试使用MapReduce导入一个csv表到Hbase。我使用的是Cloudera 5.9 我首先想使用MapReduce从CSV表格式以编程方式创建一个HBase表(因为我使用由非常多的列组成的csv文件)，然后将CSV文件的内容加载到HBase表中。

浏览 0提问于2016-11-16得票数 1

1回答

R中的fread将大型.csv文件作为单行数据框导入

、、、

我正在将一个大的.csv文件导入到R中(大约50万行)，所以我一直在尝试使用data.table包中的fread()来代替read.table()和read.csv()。但是，fread()返回一个数据帧，其中行中的所有数据都在一行中，即使它的列数是正确的。我尝试读取的.csv文件完全是从0到10000的整数，

浏览 0提问于2014-03-11得票数 10

回答已采纳

1回答

将从csv文件导入的数据帧转换回手动data.frame导入命令

我在一个由excel生成的csv文件中有一些数据，我使用read.csv命令以数据帧的形式在R中导入这些数据。让我们说一张这样的桌子：1 2 37 8 9 其中A，B，C是列名。我希望将csv文件的数据保存在我的r脚本中，这样，如果csv文件被移动/丢失，数据和r</

浏览 1提问于2018-08-04得票数 0

回答已采纳

2回答

读取引号错误的数据结构

、

我有一个5G文件数据要加载。fread似乎是加载它们的快速方式，但它读取了我所有的数据结构错误。看起来是引号导致了问题。dt2<-read.csv("data.csv",header=T)str(dt2) 这是输出。fre

浏览 0提问于2018-04-27得票数 1

回答已采纳

1回答

沃森工作室“星火环境”-如何增加`spark.driver.maxResultSize`？

我正在运行一个火花作业，在这里我正在读取、操作并将许多txt文件合并到一个文件中，但我遇到了以下问题： Py4JJavaError:调用o8483.collectToPython时发生了错误。

浏览 0提问于2018-11-24得票数 1

3回答

加载本地文件(而不是HDFS)在Spark失败

、

:阶段3.0中丢失的任务0.3 (TID 10，org.apache.spark.SparkException java.io.FileNotFoundException: file:/sales.csv不存在) 我确认了从HDFS或S3 works加载文件。以

浏览 7提问于2016-02-01得票数 20

2回答

R将非常大的数据表列表合并到一个data.table中

、、、

将列表加载到内存中后，我还剩下5 GB的RAM。 df <- lapply(fs::dir_ls(dir), function(file) { }) 我获取了一个.csv文件<

浏览 4提问于2020-09-14得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

导入之前筛选特定值的CSV文件

hadoop将本地文件系统文件夹拷贝到HDFS

R，fread CSV --如何保持单元格值中的断线？

如何匹配File1中的列以获得文件2中相应的fasta序列？

配置单元-外部表和csv数据

sed/awk -返回与第二列中某些字符串匹配的行

如何在csv文件中找到特定数据

R使用fread colClasses或skip参数读取没有列标题的csv

如何在fread中指定变量文件名

在导入csv列的子集时，R中最有效的读取csv函数/包是什么？

fread无法读取第一列为空的.csv文件

当hdfs中存在xlsx文件时，将xlsx文件转换为R中的csv文件

以编程方式从CSV文件格式创建HBase表并加载其内容

R中的fread将大型.csv文件作为单行数据框导入

将从csv文件导入的数据帧转换回手动data.frame导入命令

读取引号错误的数据结构

沃森工作室“星火环境”-如何增加`spark.driver.maxResultSize`？

加载本地文件(而不是HDFS)在Spark失败

R将非常大的数据表列表合并到一个data.table中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐