如果我能够一次读取文件,例如10K行,然后将每个块保存为RDS文件,我将能够循环结果并获得我需要的结果,尽管只是稍微慢一点,比在内存中保存整个内容更不方便。也许通过将其分成多个片段并读取每个片段,将其保存为数据帧,然后将其保存到rds?或者其他选择?GoogleNews-vectors-negative300-SLIM.bin"
# from https://privefl.github.io/bigread
我尝试使用Python导入csv文件,但得到以下错误: UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf1 in position 5:call last) 1 # Read in the data
----> 2 df = pd.read_csv('movies.csv') 这是我的代
当我尝试在块中添加列和修改标题名称等时,我得到一个错误'TypeError:'TextFileReader‘object’not support item assignment‘。我想添加一些简单的列(1或0值),连接两个列以创建一个唯一的ID,更改其他列的数据类型,并重命名一些标题,以便它们与稍后将.merge的其他文件相匹配。我可能会拆分这个csv (也许选择日期范围并创建单独的文件),但我想学习如何使用分块大小或处理大文件,而不会遇到内存问题。有没有可能以块的形式修改文件,然后将它们连接在一起?示