使用Perl拆分大型文本文件

文章/答案/技术大牛

发布

1回答

我必须将一个1.8Tb的大文本文件一分为二(我只需要文件的后半部分)。该文件使用\n作为记录分隔符。我试过了在一个小得多，115Mb的测试文件上，它完成了这项工作对1.8Tb的文件使用这种解决方案将花费不合理的长时间，所以我的问题是，在Perl中是否有一种方法可以拆分巨大的文件而不对它们进行循环？

浏览 35提问于2021-05-27得票数 3

回答已采纳

2回答

过滤文本文件之间的通用值

我是perl的初学者，我正在尝试过滤一个包含1列ID名称的大型文本文件，每列都有几个字符，并且是唯一的，例如：Tbc2Ltr1Osv5PopcTrv7我只想找到常见的ID名称并打印到一个新的文本文件中。在上面的示例中，我想要生成列表：Iubr 如何使用perl脚本执行此操作？

浏览 2提问于2012-01-17得票数 1

3回答

我有一个大约13 of大小的大文本文件。我想使用Hadoop处理文件。我知道hadoop使用FileInputFormat来创建分配给映射任务的InputSplits。我的意思是，它是按顺序读取单个主机上的大型文本文件，然后创建拆分的文件，然后分发给datanodes，还是并行读取块(例如50 in )？hadoop是否在多个主机上复制大文件，然后再将其拆分？对于映射器任务的适当拆分大小存在许多问题，但并不是精确的拆分过程本身。谢谢

浏览 2提问于2015-08-27得票数 1

回答已采纳

1回答

实用程序来查找最长的重复字符串。

、

是否有任何工具或实用工具或perl/python脚本能够在大型文本文件中找到最长的重复子字符串并打印这些模式和每种模式发生的次数？

浏览 1提问于2010-01-27得票数 5

3回答

如何正确处理这个包含Perl选项卡分隔值的文件？

我对Perl相当陌生，对Perl的“适当”语法几乎一无所知。我有一个文本文件，我每天使用的名字，以及其他信息的名单，我们的用户。我已经组装了一个Perl脚本，它使用选项卡上的拆分函数，但我遇到的问题是，如果我使用第a行，其中有5列，然后添加第二行b，其中有6列，这些列都是由数据填充的。我不知道如何让Perl看到该行a只有5列数据，并从那时开始继续解析文本文件。它还在继续，但是输出奇怪地包装了线条。我怎样才能避开这个

浏览 0提问于2010-11-18得票数 0

回答已采纳

3回答

Java中的文本文件拆分库

、

我的程序接收大型CSV文件并将其转换为XML文件。为了有更好的性能，我想把这个文件分成(例如) 500行的小段。可用于拆分文本文件的Java库有哪些？

浏览 2提问于2008-11-26得票数 1

2回答

matlab中的大型数据文件不能加载/导入

、、

我一直试图加载数据文件(csv)到matlab 64位运行在win7(64位)，但得到内存相关的错误。文件大小约为3 GB，第一列包含日期( dd/mm/yyyy hh:mm:ss)，另外两列包含出价和要价。memory命令返回以下内容： Memory available for all arrays: 19629 MB (2.058e+010 bytes) * Memory used by MATLAB: 5

浏览 2提问于2012-10-10得票数 2

3回答

在文本文件中计数单个单词

、

我正在试图计算一个特定单词在文本文件中发生的次数。文本文件作为perl程序的程序参数。我对这些台词不太清楚-@words = grep (/^[a-zA-Z\-]+$/, @words);grep是做什么的，它的正则表达式对我来说也不清楚。P.S.当我检查这个时

浏览 2提问于2011-05-29得票数 3

回答已采纳

3回答

从自然语言文本中提取数据

、

我有一套文字报纸广告，我想提取信息，如出售的项目和它的价格。这些广告不遵循任何结构化的格式。我有几千个这样的广告。谢谢

浏览 2提问于2012-08-15得票数 1

3回答

使用node.js覆盖文件中的一行

、、

使用2MB+覆盖大型( node.js )文本文件中一行的最佳方法是什么？然后，在与\n连接之后，用缓冲区覆盖文件。

浏览 3提问于2012-07-27得票数 8

回答已采纳

1回答

在语句边界上拆分一个大型sql文件？

、、

我需要将一个大型的SQL表从Oracle数据库导入到mySQL数据库中。使用split命令可以工作，除非一些字符串值包含换行符，因此split拆分中间语句的风险很高。使用regexp对";\n“(语句结束)进行拆分的Perl quickie可以工作，但在数据中仍然可以找到这样的字符序列。当然，我总是可以编写一个解析器来理解字符串引用。本地化错误是痛苦的--如果仅仅因为它耗时，而且打开这样大的文本文件进行编辑，对大多数文本编辑器来说充其量也是不容易的。

浏览 0提问于2010-12-14得票数 2

4回答

Perl在每个}{ match之间插入新行

、

我有一个文本文件，它包含大量的JSON对象，而且它还没有用新的行或对象之间的任何分隔符创建。目前我正在使用：但这会导致格式错误的数据，因为当文件在新行上被拆分时，JSON不一定要在Perl中，可以在更适合的任务中。

浏览 4提问于2016-05-13得票数 2

回答已采纳

3回答

如何将二进制文件转换为ASCII文件？

我正在寻找一种方法，将4字节二进制文件中的文本字符转换为数组或文本文件，00000000 2e 00 00 00 01 00 00 00 02 00 00 00 03 00输出可以是文本文件或数组。举个例子就好了。

浏览 6提问于2009-07-15得票数 0

回答已采纳

2回答

Powershell随机洗牌/拆分大文本文件

、

Powershell中是否有一个快速实现，可以使用15%-85%的拆分来随机地洗牌和拆分一个包含1500万行的文本文件？许多来源提到了如何使用Get-Content来实现它，但是Get-Content和Get- for对于大型文件来说是缓慢的：我正在寻找使用Stream和S

浏览 8提问于2015-05-21得票数 2

回答已采纳

1回答

使用Perl进行句子切分/标记化

提供了一个很好的Perl脚本，可以将文本拆分成句子，但我不知道它的准确性，我想我应该试一试。perl.exe boundar

浏览 1提问于2015-07-13得票数 0

1回答

逐行文件-io在Windows中不能正常工作

、

我在Windows环境中使用来自Strawberry的Perl 5.16.1。我有一个Perl脚本可以读取非常大的文本文件。最小的文本文件是30M。这种情况可能并不总是发生，但当它发生时，就好像它正在从I/O系统中读取缓存的数据，用于我之前用Perl脚本打开的另一个文件。如果我手动编辑文件并添加换行符，就可以了。我还将数据存储在大型数组中。还有人见过这样的东西吗？

浏览 3提问于2013-10-31得票数 0

2回答

解析文本文件

我有一个输入文本文件，格式如下：9.1916 9.8 1998 12.1 2012年16.9 1992年15.7 2011年8.7 2007年8.9 2008年11.9

浏览 4提问于2016-02-18得票数 0

1回答

如何从android raw文件夹中读取大于5mb的文本文件？

、、、

我正在创建一个android应用程序棋盘游戏，它是一个大约5mb的字典文本文件，我如何从raw或assets文件夹中读取此文件？任何关于阅读和拆分大型字典文件的建议都会很有帮助。

浏览 2提问于2013-02-16得票数 0

1回答

如何在文件夹和子文件夹中运行命令

我有一个具有多个层次的大型文件夹结构(没有命名约定的模式)。如何运行以下命令从所有文件夹中提取数据？该命令为：它适用于一个输入文件，但希望它遍历文件夹和子文件夹中的所有文本文件。

浏览 1提问于2021-02-01得票数 0

1回答

无法从大型Berkeley DB文件读取数据

、、

我试图从大小大于12 GB的Berkeley DB文件中读取数据，并以键值对写入文本文件。但是我不能这样做，因为我的过程在阅读了2600万条记录后停止了。我试着使用perl/ruby读取文件，但是获取记录的对象似乎能够保存2600万条记录。是否有办法拆分BDB文件，然后读取记录？或者，如果我能找到一些方法来读取数据块，然后处理它们呢？

浏览 1提问于2012-04-06得票数 2

点击加载更多