Tensorflow 2.3:如何并行读取大文件中的文本？

、、、

我需要将我的4 4GB大小的数据集文件分解成块，小块。作为优化时间消耗的一部分，我想最大化并行处理。目前，我可以观察到CPU和GPU的核心未得到充分利用。请参见图像here中的附加输出。我的代码片段如下所示 def _bytes_feature(value): """Returns a bytes_list from a string / byte."""tf.print(&

浏览 13提问于2020-08-25得票数 0

回答已采纳

1回答

带编码规范的fread (R中的data.table)

、、、

在前面的问题和我的问题的答案中找不到正确的答案: 1.我有一个2.3 GB的csv文件，其中包含240万行希伯来语文本，目前以ASCII编码。既然我们讨论的是大文件，那么fread会更好，但是编码呢？你知道如何读取用ASCII编码的csv文件以避免著名的"embedded nul in string“错误吗？谢谢

浏览 1提问于2015-04-29得票数 13

1回答

用大型过滤器过滤大文件

、、、、

我希望提取以存储在$file1中的字符串开头的所有行$file2。parallel --pipepart -a $file1 grep -Ff $file2 消耗大量的内存并被操作系统杀死。parallel --pipepa

浏览 0提问于2019-02-14得票数 3

回答已采纳

2回答

如何在while循环中使用grep命令时使用并行

我有一个包含所有搜索字符串的文件，我从该文件中获取所有字符串，并将它们逐个添加到另一个文件中，现在这需要很长时间才能实现并行命令。>> exclusion_list_$.txt fi我在想，也许把所有的内部命令都放在一个函数中，然后并行地调用这个函数。我是新来的，请告诉我，如果这是正确的方式，或如果任何其他方式将

浏览 0提问于2020-07-30得票数 1

回答已采纳

2回答

在java中处理大文件

、、

我有一个大约10 GB的大文件。我必须在Java中对文件进行排序、过滤等操作。每个操作都可以并行完成。目前，我正在串行执行操作，大约需要20分钟来处理这样的文件。谢谢,

浏览 6提问于2012-03-15得票数 8

回答已采纳

1回答

HDFS并行读取大文件

、

我想从我有5个节点的hadoop集群中读取一个500 my大小的大文件。我可以并行读取这些块，还是必须逐个读取这些块？

浏览 0提问于2015-01-23得票数 1

1回答

告诉Linux在将文件写入磁盘时不要将其保存在缓存中。

、

我正在从用户模式应用程序将一个大文件写入磁盘。与此并行，我正在编写一个或多个较小的文件。大文件不会在短期内被读取，但是小文件可能会被读取。我有足够的RAM用于应用程序+较小的文件，但对大文件不够。我能否告诉操作系统，在将部分大文件写入磁盘后，不要将它们保存在缓存中，这样就可以为较小的文件提供更多的缓存？我仍然希望写入大文件的速度

浏览 5提问于2020-09-21得票数 0

回答已采纳

3回答

我有一个大约13 of大小的大文本文件。我想使用Hadoop处理文件。我知道hadoop使用FileInputFormat来创建分配给映射任务的InputSplits。我想知道hadoop是按顺序还是并行地创建这些InputSplits。我的意思是，它是按顺序读取单个主机上的大型文本文件，然后创建拆分的文件，然后分发给datanodes，还是并行读取块(例如50 in )？hadoop是否在多个主机

浏览 2提问于2015-08-27得票数 1

回答已采纳

1回答

如何在ps-worker分发中保证每个worker都读取无重复的数据？

、、

我正在尝试TensorFlow发行版，根据这里的文档，我们使用的是数据并行性。我已经设置了ps-worker脚本，它如预期的那样启动和运行。但是有一个问题请帮助我们：我的存储中有数据:1、2、3、4、5、6、7、8、9、10由于数据的并行性，我假设wo

浏览 0提问于2018-07-06得票数 1

1回答

Tensorflow2.x 2.x多处理定制数据生成器

、、、、

我刚升级到tensorflow 2.3。我想做我自己的数据发生器进行培训。在tensorflow 1.x中，我这样做了： item_list = load_item_list(test_flag)1.x中运行良好。关于tensorflow 2.3，我收到了警告：警告: tensorflow:多处理会与TensorFlow发生严重的</

浏览 8提问于2020-10-14得票数 2

3回答

计数字出现在非常大的文件中(内存在运行时耗尽) grep -o foo \ wc -l

、、

有哪些选项可以使word依赖于非常大的文件？在本例中，我有一个1.7GB的xml文件，并试图快速计算其中的一些内容。我发现这篇文章是的，这种方法在一定的范围内适用于我。高达300 or左右(40000次)的事故做得很好但超过这个尺寸，我就会“记忆枯竭”。

浏览 3提问于2014-07-10得票数 3

回答已采纳

1回答

S3并行读写性能？

、、、

考虑一个场景，其中Spark (或任何其他Hadoop框架)从S3读取一个大文件(比如1TB)。多个火花执行器如何从S3并行读取非常大的文件。在HDFS中，这个非常大的文件将分布在多个节点上，每个节点都有一个数据块。在对象存储中，我假定整个文件将位于单个节点(忽略副本)。这将大大降低读取吞吐量/性能。类似地，HDFS中的大文件写入也应该比S3快得多，因为

浏览 2提问于2019-01-15得票数 12

回答已采纳

1回答

C++将类似CSV的数据保存在更大的文件中

、、

我的应用程序需要几个文件。我不想这样分发它们。相反，我将它们编译成一个更大的文件，并在运行时从这个大文件中读取所需的部分。我不知道做这件事的好方法。我正在考虑将一行文本文件写入到大文件中</em

浏览 1提问于2013-05-27得票数 1

回答已采纳

1回答

使用多线程读取30文件

、

我正在尝试读取一个30 25(2500万行)的大文件。我想写一个代码，它将创建一个线程池，每个线程将并行读取1000行(第一个线程将读取第一个1000行，第二个线程将读取下一个1000行，依此类推)。我已经读取了整个文件并创建了线程池，但现在我被困在如何确保每个线程只读取1000行，并跟踪已读取的行号以便下一个线程不必读取这些行的问题上。

浏览 0提问于2016-07-08得票数 1

2回答

为什么要将TensorFlow用于卷积神经网络

、、

我最近在Coursera上参加了Andrew Ng写的courser。在那之后，我转向Python，使用Pandas，Numpy，Sklearn来实现ML算法。现在，当我在网上冲浪的时候，我遇到了tensorFLow，我发现它非常神奇，并实现了这个，它将MNIST数据作为输入。但是我不确定为什么要使用诸如库(TensorFlow)之类的库？我们没有做任何并行计算，因为在前一个时期更新的权重将在下一个时期使用？我发现很难找到使用这样的库的</em

浏览 1提问于2017-01-05得票数 1

1回答

M正则表达式的GNU并行n行

、、

GNU并行M正则表达式的n行示例声明如下：如果CPU是限制因素，那么应该在regexp上进行并行化: cat regexp.txt _ -L1000 -管道-L1000-循环循环grep -f --这将启动每个CPU一个grep，并且每个CPU读取一次大文件，但由于这是并行进行的，除第一个读取之外，所有读取都将在内存中缓存。因此，在这个实例中，GNU parallel循环在并行g

浏览 0提问于2014-10-03得票数 4

回答已采纳

3回答

如何与Python并行读取/处理大型文件

、、

我有一个大文件(几乎是20GB )，超过20百万行，每一行代表单独序列化的JSON。我使用Python3.6.X

浏览 0提问于2018-06-01得票数 5

2回答

NVME SSD在Linux上性能缓慢

、

一个简单的dd if=/dev/nvme0n1 of=/dev/null bs=1M count=10k只报告1.5GB/s。我希望这样的顺序访问是从任何存储设备读取的最好的情况，所以我真的不知道这里发生了什么。 (我在StackExchange上看到了一些类似的问题，但它们都指向了与这个“简单的问题”不同的方向。)注意:如果我没有弄错的话，CrystalDiskMark使用“真正的文件”--所以它甚至

浏览 0提问于2020-04-30得票数 4

回答已采纳

1回答

默认情况下，Tensorflow如何使用CPU内核？

、、

我知道我可以设置inter_op_parallelism_threads和intra_op_parallelism_threads变量来控制Tensorflow中的并行性。但是我想知道默认情况下，Tensorflow是如何处理跨CPU内核的并行性的？我最初的猜测是，默认情况下，是，Tensorflow将所有的CPU核看作一个设备，并使用它们在使用Eigen库的所有核中</e

浏览 5提问于2019-11-05得票数 0

1回答

提高IO性能和速度

、

我需要从/到压缩的文本文件中读写大量的字符串(每行90个字符)。准备输入/输出也是一项耗时的任务，但可以忽略不计(IO时间要长得多(分析))GZIPOutputStream out = new GZIPOutputStream(new FileOutputStreamBufferedReader(new InputStreamReader(in),8192);这个

浏览 1提问于2012-02-23得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

带编码规范的fread (R中的data.table)

用大型过滤器过滤大文件

如何在while循环中使用grep命令时使用并行

在java中处理大文件

HDFS并行读取大文件

告诉Linux在将文件写入磁盘时不要将其保存在缓存中。

hadoop是否并行地创建InputSplits？

如何在ps-worker分发中保证每个worker都读取无重复的数据？

Tensorflow2.x 2.x多处理定制数据生成器

计数字出现在非常大的文件中(内存在运行时耗尽) grep -o foo \ wc -l

S3并行读写性能？

C++将类似CSV的数据保存在更大的文件中

使用多线程读取30文件

为什么要将TensorFlow用于卷积神经网络

M正则表达式的GNU并行n行

如何与Python并行读取/处理大型文件

NVME SSD在Linux上性能缓慢

默认情况下，Tensorflow如何使用CPU内核？

提高IO性能和速度

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐