前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python读取大文件

python读取大文件

作者头像
py3study
发布于 2020-01-07 06:32:18
发布于 2020-01-07 06:32:18
1.2K00
代码可运行
举报
文章被收录于专栏:python3python3
运行总次数:0
代码可运行

python读取文件对各列进行索引 可以用readlines, 也可以用readline, 如果是大文件一般就用readline

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
d={}

a_in = open("testfile.txt", "r")

for line in a_in:
    columnssplit = line.rstrip().split("\t")
    d[columnssplit[0]]=columnssplit[1]

a_in.close()

ID_test = open("correlation.txt", "r")

for line in ID_test:
    s = line.rstrip().split("\t")
    if s[1] in d:
        print s[0]+"\t"+d[s[1]]
ID_test.close()

## Here is another example

f = open("test.txt", "r")  
while True:  
    line = f.readline()  
    if line:   #  或者用 if line != "":
        print line  
    else:  
        break  
f.close()

参考: http://blog.csdn.net/oldjwu/article/details/4329401

python 还有一个pandas 主要用于大数据分析, 它与matplotlib以及 numpy 结合可以替代R语言进行统计学分析, 获取dataframe的 各行内容,可以用iterrows() 和 itertuples(), 其中 itertuples() 比 iterrows()速度更快。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd

df1 = pd.read_csv("test.txt", header = None, sep='\t')

# 打印前三行
print df1[:3]

# 选取前三行的 前三列, 使用df.loc

df2 = df1.loc[:3, [0, 1, 2]]

print df2

# 替换第三列的部分内容

col3 = df2.apply(lambda r: r[2].replace("KH","TF"), axis=1)

# 合并第一列和替换后的第三列内容

df3 = pd.concat([df2[0], col3], axis = 1)

print df3

参考:

http://pandas.pydata.org/pandas-docs/

http://stackoverflow.com/questions/16476924/

http://stackoverflow.com/questions/13411544/

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/09/18 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Pandas的快和慢,相差百倍!
1 目标 有两个DataFrame实例,分别为 df1, df2, 其中 col_id 是需要修正的列。修正的逻辑为,如果df1 和 df2 中都出现某个 col_id,则 df1对应的 st 列赋值为 1, 否则值不变。
double
2019/10/22
8540
python数据分析之pandas超详细学习笔记
join参数的属性,如果为’inner’得到的是两表的交集,如果是outer,得到的是两表的并集。
远方的星
2021/07/31
1.6K0
python数据分析之pandas超详细学习笔记
Python|Pandas的常用操作
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
数据山谷
2020/07/21
2.3K0
Pandas进阶修炼120题,给你深度和广度的船新体验
本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。
数据派THU
2020/07/17
6.4K0
Pandas常用命令-1
初期的时候,可能会先从实例入手,而不是先把所有先备命令学一遍,但下面这几个命令还是经常用的,如果被很长的tutorial吓跑,可以先敲一遍这些命令。 import pandas as pd import numpy as np import matplotlib.pyplot as plt 用dict建立Dataframe # DataFrame by dict df2 = pd.DataFrame({'A' : 1., 'B' : pd.Timestamp('2013
杨熹
2018/04/02
7380
Pandas常用命令-1
我的Pandas学习经历及动手实践
Pandas 可以说是基于 NumPy 构建的含有更高级数据结构和分析能力的工具包, 实现了类似Excel表的功能,可以对二维数据表进行很方便的操作。
Datawhale
2022/04/08
1.9K0
我的Pandas学习经历及动手实践
玩转数据处理120题|Pandas&R
本文精心挑选在数据处理中常见的120种操作并整理成习题发布。并且每一题同时给出Pandas与R语言解法,同时针对部分习题给出了多种方法与注解。本系列一共涵盖了数据处理、计算、可视化等常用操作,动手敲一遍代码一定会让你有所收获!
刘早起
2020/04/22
6.4K0
玩转数据处理120题|Pandas版本
Pandas进阶修炼120题系列一共涵盖了数据处理、计算、可视化等常用操作,希望通过120道精心挑选的习题吃透pandas。并且针对部分习题给出了多种解法与注解,动手敲一遍代码一定会让你有所收获!
刘早起
2020/04/22
7.9K0
十分钟掌握Pandas基本操作(下)
对于Pandas的基本操作我们就总结到这里,这个数据集还可以用来做机器学习,把宝可梦的类型作为标签来预测,或是把是否是神兽作为标签来做二分类等等,我们下回见。
老肥码码码
2020/04/27
5210
Pandas进阶修炼120题|当Pandas遇上NumPy
本文接着更新Pandas进阶修炼120题,Pandas的强大不仅仅因为它自身的强大,更在于当它和NumPy、Matplotlib、Sklearn等库结合使用时发挥的巨大威力,本期就挑选了一些Pandas+NumPy相关的题目供各位读者练习,如果感兴趣,请一定要敲一遍代码。
刘早起
2020/04/22
1.1K0
数据分析之Pandas合并操作总结
可以看到这个索引就是0和1,如果你直接append而不加参数则就会直接将上面的DataFrame直接和df_append粘在一起而不会改变索引,那么怎么改变索引使得这个索引顺着前面的索引呢?看下面的例子:
Datawhale
2020/07/02
5K0
数据分析之Pandas合并操作总结
Pandas进阶修炼120题|完整版
『Pandas进阶修炼120题』系列现已完结,我们对Pandas中常用的操作以习题的形式发布。从读取数据到高级操作全部包含,希望可以通过刷题的方式来完整学习pandas中数据处理的各种方法,当然如果你是高手,也欢迎尝试给出与答案不同的解法。
刘早起
2020/04/15
13.1K1
Pandas进阶修炼120题|完整版
Python数据分析实战之技巧总结
需求:pandas处理多列相减,实际某些元素本身为空值,如何碰到一个单元格元素为空就忽略了不计算,一般怎么解决!
DataCharm
2021/02/22
2.6K0
Python数据分析实战之技巧总结
Pandas、Numpy性能优化秘籍(全)
pandas、numpy是Python数据科学中非常常用的库,numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。pandas是基于numpy的数据处理工具,能更方便的操作大型表格类型的数据集。但是,随着数据量的剧增,有时numpy和pandas的速度就成瓶颈。
算法进阶
2022/06/02
3K0
Pandas、Numpy性能优化秘籍(全)
Pandas笔记_python总结笔记
https://blog.csdn.net/xinxing__8185/article/details/48022401
全栈程序员站长
2022/09/27
7770
Python 数据分析(三):初识 Pandas
Pandas 基于 NumPy 开发,它提供了快速、灵活、明确的数据结构,旨在简单、直观地处理数据。
Python小二
2020/08/18
1.7K0
一篇文章就可以跟你聊完Pandas模块的那些常用功能
在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,转换起来就很方便。 另一方面,如果我们日常的数据清理工作不是很复杂的话,你通常用几句 Pandas 代码就可以对数据进行规整。
1480
2019/07/22
5.4K0
一篇文章就可以跟你聊完Pandas模块的那些常用功能
基于pandas数据预处理基础操作
# -*- coding: utf-8 -*- import numpy as np import pandas as pd #一、创建数据 #1.通过传递一个list对象来创建一个Series,pandas会默认创建整型索引 s = pd.Series([1,3,np.nan,5,8]) #2.通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame dates = pd.date_range('20170301',periods = 6) df1 = pd.DataFram
hankleo
2020/09/17
7850
python pkl文件_Python字符串格式化输出的方式包括
pkl文件是python里面保存文件的一种格式,如果直接打开会显示一堆序列化的东西(二进制文件)。 常用于保存神经网络训练的模型或者各种需要存储的数据。
全栈程序员站长
2022/09/30
3K0
pandas库详解一:基础部分
谈到DataFrame数据的合并,一般用到的方法有concat、join、merge。 这里就介绍concat方法,以下是函数原型。
K同学啊
2019/01/22
1.4K0
相关推荐
Pandas的快和慢,相差百倍!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验