Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >pandas数据读取的问题记录

pandas数据读取的问题记录

作者头像
sladesal
发布于 2018-11-09 07:01:08
发布于 2018-11-09 07:01:08
1.4K00
代码可运行
举报
文章被收录于专栏:机器学习之旅机器学习之旅
运行总次数:0
代码可运行

最近发现pandas的一个问题,记录一下: 有一组数据(test.txt)如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
20181016    14830680298903273
20181016    14839603473953069
20181016    14839603473953079
20181016    14839603473953089
20181016    14839603473953099
20181016    14839603473953019

剖析出来看,数据是按照\t进行分隔的:'20181016\t14830680298903273\n'

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with open('test.txt','r') as f:
    line = f.readline()
    print(line)

我平时一直在用pandas去读数据,所以我很熟练的写下来如下的代码: pd.read_table('test.txt',header=None) 然后发现,第一列变成了科学记数法的方式进行存储了:

很明显,科学记数法是可以转换的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def as_number(value):
    try:
        return '{:.0f}'.format(value)
    except:
        return value

# 应用到目标列去即可
data.uid.apply(as_number)

诡异的事情发生了,对于14830680298903273在as_number函数转换下变成了14830680298903272,理论上讲14830680298903273没有小数部分不存在四舍五入的原因,网上搜了也没有很明确的解释,初步讨论后猜测应该是pandas在用float64去存这种长度过长的数字的时候有精度丢失的问题。

要解决也是很简单的:

  • 用open的形式打开,在切割逐步去用list进行append,在合并
  • 用read_table的函数的时候,默认是用float64去存在的,改成object去存(dtype=object)
  • 在生产数据的时候,对于这种过长的数据采取str的形式去存

也是给自己提个醒,要规范一下自己的数据存储操作,并养成数据核对的习惯。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.10.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
pandas读取数据(1)
访问数据是进行各类操作的第一步,本节主要关于pandas进行数据输入与输出,同样的也有其他的库可以实现读取和写入数据。
python数据可视化之路
2023/02/23
2.6K0
pandas读取数据(1)
20个经典函数细说Pandas中的数据读取与存储
大家好,今天小编来为大家介绍几个Pandas读取数据以及保存数据的方法,毕竟我们很多时候需要读取各种形式的数据,以及将我们需要将所做的统计分析保存成特定的格式。
用户6888863
2021/12/10
3.4K0
20个经典函数细说Pandas中的数据读取与存储
系统性总结了 Pandas 所有知识点
Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢?
数据STUDIO
2021/12/27
3.4K0
系统性总结了 Pandas 所有知识点
Python 读取txt、csv、mat数据并载入到数组
这里结合上一篇博文的数据来讲怎么方便的载入.txt文件到一个数组,数据如下所示:
全栈程序员站长
2022/07/23
5K0
Python 读取txt、csv、mat数据并载入到数组
Pandas-DataFrame基础知识点总结
1、DataFrame的创建 DataFrame是一种表格型数据结构,它含有一组有序的列,每列可以是不同的值。DataFrame既有行索引,也有列索引,它可以看作是由Series组成的字典,不过这些Series公用一个索引。 DataFrame的创建有多种方式,不过最重要的还是根据dict进行创建,以及读取csv或者txt文件来创建。这里主要介绍这两种方式。 根据字典创建 data = { 'state':['Ohio','Ohio','Ohio','Nevada','Nevada'], '
石晓文
2018/04/11
4.4K0
Pandas-DataFrame基础知识点总结
python pandas教程
#coding=utf-8 import numpy as np import pandas as pd import matplotlib.pyplot as pyplot #s=pd.Series([7,'Heisenberg',3.14,-1789710578,'Happy Eating!']) #print s #Series可以转换字典 d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 110
李智
2018/08/03
1.5K0
[编程经验] Pandas中比较好用的几个方法
话说我现在好久不做深度学习的东西了,做了一段时间是的NLP,以为可以去尝试各种高大上的算法,然而现在还并没有,反而觉得更像是做数据挖掘的。。平时遇到的比较多的问题,大多数都是数据清洗的工作,这时候工具就显得很重要,有一个好的工具能起到事半功倍的效果,比如突然有个idea,然后自己开始呼哧呼哧的造轮子,最后才发现,哦,原来都有现成的方法,本来一行代码就可以搞定的问题,到最后写了几十行。 正所谓,“欲闪其事,必先利其器”啊。 好了,废话不多说,下面介绍几个神奇的方法。 数据筛选 先把数据导
用户1622570
2018/04/11
2K0
Pandas读取TXT文件
本文记录的是如何使用Pandas来读取不同情况下的TXT文件,主要是介绍部分常见参数的使用。
皮大大
2023/08/25
6520
pandas入门①数据统计
本指南直接来自pandas官方网站上的10分钟pandas指南。 我将它改写以使代码更易于访问。 本指南适用于之前未使用pandas的初学者。
用户1359560
2018/08/27
1.6K0
python数据分析——详解python读取数据相关操作
一般在做数据分析时最常接触的就是逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。
刘早起
2020/04/22
3.4K0
Pandas vs Spark:数据读取篇
按照前文所述,本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取,所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。
luanhz
2021/09/02
2K0
Pandas | 数据读取
本文框架 0.导入Pandas 1.读取csv文件 1.1 查看读取前的csv数据 1.2 读取数据 1.3 初步数据探索 2. 读取txt文件 2.1 查看读取前的txt数据 2.2 读取数据 3. 读取excel文件 0.导入Pandas 我们在使用Pandas时,需要先将其导入,这里我们给它取了一个别名pd。 import pandas as pd 1.读取csv文件 1.1 查看读取前的csv数据 文件数据以逗号分隔。 userId,movieId,rating,timestamp 1,1,4.
生信real
2022/12/20
1.2K0
快乐学习Pandas入门篇:Pandas基础
寄语:本文对Pandas基础内容进行了梳理,从文件读取与写入、Series及DataFrame基本数据结构、常用基本函数及排序四个模块快速入门。同时,文末给出了问题及练习,以便更好地实践。
Datawhale
2020/04/22
2.6K0
Pandas数据显示不全?快来了解这些设置技巧! ⛵
我们在应用 Python 进行数据分析挖掘和机器学习时,最常用的工具库就是 Pandas,它可以帮助我们快捷地进行数据处理和分析。
ShowMeAI
2022/07/12
3.3K0
Pandas数据显示不全?快来了解这些设置技巧! ⛵
Pandas笔记_python总结笔记
https://blog.csdn.net/xinxing__8185/article/details/48022401
全栈程序员站长
2022/09/27
7980
Pandas数据挖掘与分析
请注意,本文编写于 979 天前,最后修改于 979 天前,其中某些信息可能已经过时。
曼亚灿
2023/05/17
1.5K0
Pandas数据挖掘与分析
R数据读取(数据文件解析)
1,控制读入的数据行数,非批处理,有点类似数据库中的指标操作,可对文件中的数据逐行操作。
云深无际
2020/10/23
2.7K0
R数据读取(数据文件解析)
Pandas速查手册中文版
本文翻译自文章: Pandas Cheat Sheet - Python for Data Science,同时添加了部分注解。 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优化,使得和Python内置方法相比时有了很大的优势。 如果你想学习Pandas,建议先看两个网站。 (1)官网: Python Data Analysis Library (2)十分钟入门Pandas: 10 Mi
Niucas_Mao
2018/04/12
12.9K0
Pandas使用 (一)
What is pandas Pandas是python中用于处理矩阵样数据的功能强大的包,提供了R中的dataframe和vector的操作,使得我们在使用python时,也可以方便、简单、快捷、高效地进行矩阵数据处理。 具体介绍详见http://pandas.pydata.org/。 A fast and efficient DataFrame object for data manipulation with integrated indexing; Tools for reading and wri
生信宝典
2018/02/05
2.6K0
【Seaborn绘图】深度强化学习实验中的paper绘图方法
第一个维度表示每个时间点采样不同数目的数据(可认为是每个x对应多个不同y值) 第二个维度表示不同的时间点(可认为是x轴对应的x值)
小白学视觉
2022/09/28
1.1K0
【Seaborn绘图】深度强化学习实验中的paper绘图方法
相关推荐
pandas读取数据(1)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验