腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1912)
视频
沙龙
1
回答
使用
fread
()
和
grep
将
csv
文件
从
HDFS
读
取到
R
中
--
丢失
列名
、
、
我一直在尝试
使用
data.table包
将
大的
csv
文件
从
HDFS
读
取到
R
中
,因为在我的经验
中
,它比rhdfs包快得多。我已经成功地
使用
以下命令读取了整个
文件
: data <-
fread
("/usr/bin/hadoop fs -text /path/to/the/file.<e
浏览 2
提问于2016-08-09
得票数 2
4
回答
导入之前筛选特定值的
CSV
文件
我有一个
文件
夹,里面有数千个逗号分隔的
CSV
文件
,总共有几十个GB。每个
文件
包含许多记录,我想根据第一个字段
中
的值(例如,aa、bb、cc等)分别分离
和
处理这些记录。目前,我正在
将
所有
文件
导入一个dataframe
中
,然后在
R
中将其设置为更小的、单独的数据
文件
。问题是,这是非常内存密集型的-我想在导入过程
中
过滤第一列,而不是所有数据都在内存
中
。这是我目前的代码:
浏览 4
提问于2020-07-28
得票数 0
回答已采纳
7
回答
hadoop
将
本地
文件
系统
文件
夹拷贝到
HDFS
、
我需要将一个
文件
夹
从
本地
文件
系统复制到
HDFS
。我找不到任何
将
文件
夹(包括其所有子
文件
夹)移动到
HDFS
的示例 $ hadoop fs -copyFromLocal /home/ubuntu/Source-Folder-To-Copy
HDFS
-URI
浏览 0
提问于2015-01-29
得票数 76
1
回答
R
,
fread
CSV
--如何保持单元格值
中
的断线?
、
我有一个
CSV
文件
,我正在
使用
fread
读取一个
R
脚本。得到的变量是一个向量,这是我在流程的下一步所需要的。我的
CSV
文件
中有一些值,比如'Energy \nElectricity',其目的是
将
这些值作为图表的标签,由于格式化的原因,在'Energy'
和
'Electricity'之间(在本例
中
)之间有一个行间隔但是,当我
使用
frea
浏览 0
提问于2018-06-15
得票数 0
回答已采纳
2
回答
如何匹配File1
中
的列以获得
文件
2
中
相应的fasta序列?
、
、
、
、
请问如何
将
File
中
第一列的所有值与File 2
中
的行文本匹配,以便复制
文件
1
中
所有对象ID的fasta序列?1.
csv
文件
NODE_142_length_92872_cov_11.2497,92872,2005469NODE_775_length_33402_cov_18.9306,33402,1147 NODE_1008_length
浏览 0
提问于2018-10-11
得票数 1
2
回答
配置单元-外部表
和
csv
数据
、
、
我需要你的一些帮助来解决一个关于
从
hive重新引用数据的问题。以下情况:我
将
CSV
文件
data.
csv
导入hadoop。现在,我发现了许多
使用
外部表在
csv
文件
之上创建模式的代码片段。我的问题是,hive如何知道外部表的模式连接到data.
csv
。在示例
中
,我找不到对
csv
文件
的引用。sample_1.
csv
在this hive example
中
浏览 8
提问于2020-05-03
得票数 0
1
回答
sed/awk -返回与第二列
中
某些字符串匹配的行
、
我在
HDFS
中有一个
csv
文件
,我正在
使用
fread
()将其读入
R
。我不
使用
grep
,因为它不保留标题。我也尝试过
使用
awk,但在只对条件进行过滤方面没有任何进展:
fread
("hadoop fs -text /path/to/file.
csv
| awk '$2 == 2MS-US'", fill=TRUE任何关于
使用
浏览 0
提问于2016-08-09
得票数 1
回答已采纳
2
回答
如何在
csv
文件
中找到特定数据
、
、
我有很多
csv
文件
,我想在每个
文件
中找到this.because
中
的一些数据--数据位置不同,所以我想知道如何在不同的
csv
文件
中找到红色框
中
的数据。在
csv
文件
中
,它包含相同的数据,比如不同的月份,我的想法是在
csv
文件
中找到EnergyconsumptionElectricallyNaturalgasmonthly,然后反馈位置,根据位置选择红框数据
浏览 0
提问于2018-10-18
得票数 1
回答已采纳
1
回答
R
使用
fread
colClasses或skip参数读取没有列标题的
csv
、
、
、
我希望能够跳过在v1.8.9
中
通过data.table的
fread
函数读
取到
R
中
的列。但是我正在读取的
csv
没有列标题…,这对于
fread
来说似乎是一个问题……有没有一种方法可以只指定我不需要特定的列?并
使用
fread
将
csv
读<em
浏览 2
提问于2013-07-10
得票数 10
回答已采纳
2
回答
如何在
fread
中指定变量
文件
名
、
我有一个
R
脚本,它将几个文本
文件
读入data.tables
中
。我
使用
一个for循环来逐步遍历
文件
列表来读取每个
文件
,这很好。="#")) dta <-rbind(dta,dt)为了加快速度,我决定尝试
使用
data.table包
中
的
fread
方法。我还决定
使用
grep
命令来帮助操作, dta <- data.tab
浏览 4
提问于2015-09-02
得票数 3
回答已采纳
2
回答
在导入
csv
列的子集时,
R
中最有效的读取
csv
函数/包是什么?
、
、
、
、
我正在尝试
将
csv
加载到
R
中
,即大约180 k行
和
c9k列。我只需要一个c.100列的子集,并且知道我需要的列的名称。 这个的答案涵盖了在导入
csv
时选择列子集的许多不同选项。
使用
这些答案,以及我自己的知识,我尝试
使用
和
(来自 )、 (来自 )
和
(来自 )。所有这些函数似乎都导入了整个
csv
,然后对列进行了子集--这是非常低效率的,因为我只需要一小部分列。我还尝试
使用
来自的,这
浏览 4
提问于2020-11-05
得票数 1
回答已采纳
3
回答
fread
无法读取第一列为空的.
csv
文件
、
、
假设我有第一个如下所示的test.
csv
如果我尝试
使用
read.
csv
来读取它,它工作得很好。read.
csv
("test.
csv
",header=FALSE)#1 NA a b c d e#In read.tableheader = header, sep = sep, quote = quote, : # incomplete final line found b
浏览 2
提问于2014-03-12
得票数 12
1
回答
当
hdfs
中
存在xlsx
文件
时,
将
xlsx
文件
转换为
R
中
的
csv
文件
、
我想知道如何
使用
R
脚本
将
驻留在
hdfs
中
的.xlsx
文件
转换为.
csv
文件
。我尝试
使用
XLConnect
和
xlsx包,但是它给了我错误的“
文件
找不到”,我
使用
上面的包在
R
脚本中提供.
csv
位置作为输入,我能够
使用
R
脚本(read.
csv
())
从
HDFS
读取.
浏览 3
提问于2016-11-24
得票数 0
2
回答
以编程方式
从
CSV
文件
格式创建HBase表并加载其内容
、
、
、
、
嗨,我是hadoop的新手,我正在尝试
使用
MapReduce导入一个
csv
表到Hbase。我
使用
的是Cloudera 5.9 我首先想
使用
MapReduce
从
CSV
表格式以编程方式创建一个HBase表(因为我
使用
由非常多的列组成的
csv
文件
),然后
将
CSV
文件
的内容加载到HBase表
中
。
浏览 0
提问于2016-11-16
得票数 1
1
回答
R
中
的
fread
将
大型.
csv
文件
作为单行数据框导入
、
、
、
我正在
将
一个大的.
csv
文件
导入到
R
中
(大约50万行),所以我一直在尝试
使用
data.table包
中
的
fread
()来代替read.table()
和
read.
csv
()。但是,
fread
()返回一个数据帧,其中行
中
的所有数据都在一行
中
,即使它的列数是正确的。我尝试读取的.
csv
文件
完全是
从
0到10000的整数,
浏览 0
提问于2014-03-11
得票数 10
回答已采纳
1
回答
将从
csv
文件
导入的数据帧转换回手动data.frame导入命令
我在一个由excel生成的
csv
文件
中有一些数据,我
使用
read.
csv
命令以数据帧的形式在
R
中导入这些数据。让我们说一张这样的桌子:1 2 37 8 9 其中A,B,C是
列名
。我希望
将
csv
文件
的数据保存在我的
r
脚本
中
,这样,如果
csv
文件
被移动/
丢失
,数据
和
r</
浏览 1
提问于2018-08-04
得票数 0
回答已采纳
2
回答
读取引号错误的数据结构
、
我有一个5G
文件
数据要加载。
fread
似乎是加载它们的快速方式,但它读取了我所有的数据结构错误。看起来是引号导致了问题。dt2<-read.
csv
("data.
csv
",header=T)str(dt2) 这是输出。
fre
浏览 0
提问于2018-04-27
得票数 1
回答已采纳
1
回答
沃森工作室“星火环境”-如何增加`spark.driver.maxResultSize`?
我正在运行一个火花作业,在这里我正在读取、操作并将许多txt
文件
合并到一个
文件
中
,但我遇到了以下问题: Py4JJavaError:调用o8483.collectToPython时发生了错误。
浏览 0
提问于2018-11-24
得票数 1
3
回答
加载本地
文件
(而不是
HDFS
)在Spark失败
、
:阶段3.0
中
丢失
的任务0.3 (TID 10,org.apache.spark.SparkException java.io.FileNotFoundException: file:/sales.
csv
不存在) 我确认了
从
HDFS
或S3 works加载
文件
。以
浏览 7
提问于2016-02-01
得票数 20
2
回答
R
将
非常大的数据表列表合并到一个data.table
中
、
、
、
将
列表加载到内存
中
后,我还剩下5 GB的RAM。 df <- lapply(fs::dir_ls(dir), function(file) { }) 我获取了一个.
csv
文件<
浏览 4
提问于2020-09-14
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据分析常见库介绍之Pandas
Python按需提取JSON文件数据并保存为Excel表格
Python学习笔记(四)
CSV数据读取,性能最高多出R、Python 22倍
Python读取JSON键值对并导出为.csv表格
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券