linux 复制大量小文件

在Linux系统中复制大量小文件时，可能会遇到性能瓶颈，这是因为文件系统的元数据操作（如创建、修改和删除文件）通常比复制大文件的数据块要慢得多。以下是一些基础概念、优势、类型、应用场景以及解决这个问题的方法。

基础概念

文件系统元数据：包括文件的属性、权限、时间戳等信息。
硬链接与软链接：硬链接是指向相同数据块的多个文件名，而软链接（符号链接）是指向另一个文件路径的特殊文件。

类型与应用场景

单线程复制：适用于文件数量不多或者文件系统对并发操作有限制的情况。
多线程/多进程复制：适用于需要快速复制大量文件的场景，如备份、迁移等。

遇到的问题及解决方法

问题

复制大量小文件时速度缓慢，甚至可能导致系统资源耗尽。

原因

文件系统的元数据操作开销大。
单线程复制效率低下。
磁盘I/O成为瓶颈。

解决方法

使用rsync进行复制
使用rsync进行复制
这里的-a表示归档模式，保持文件所有属性；-v表示详细输出；-z表示压缩数据传输。
使用find和cpio组合
使用find和cpio组合
这种方法可以减少文件系统的元数据操作次数。
使用tar命令
使用tar命令
tar命令可以将多个文件打包成一个文件，然后再解包，这样可以减少元数据的操作次数。
使用并行复制工具 如parallel-ssh或pdcp，这些工具可以利用多核CPU的优势，同时复制多个文件。

示例代码

以下是一个使用rsync的简单脚本示例，用于复制一个目录下的所有文件到另一个目录：

#!/bin/bash
SOURCE_DIR="/path/to/source"
DEST_DIR="/path/to/destination"

rsync -avz "$SOURCE_DIR" "$DEST_DIR"

通过上述方法，可以有效提高在Linux系统中复制大量小文件的效率。

页面内容是否对你有帮助？

有帮助

没帮助

vmware磁盘在linux来宾上变为只读。

、、

我把Linux CentOS作为VMWare工作站上的客户操作系统，主机是Windows。我每次都能复制这个问题。我们能做些什么来解决这个问题。

浏览 0提问于2014-02-14得票数 -1

5回答

从dir1到dir2的cp文件有最快的选项吗？

、、

我使用cp在Linux中复制大量小文件(b/n1M和10M大小；总计约6G )。

浏览 11提问于2010-12-08得票数 1

回答已采纳

1回答

MapReduce作业(用python编写)在EMR上运行缓慢

、、、、

我正在尝试使用python的MapReduce包编写一个MRJob作业。该作业处理存储在S3中的36,000个文件。每个文件为~2MB。当我在本地运行作业(将S3桶下载到我的计算机)时，运行大约需要1小时。然而，当我尝试在EMR上运行它时，它需要更长的时间(我在8小时内停止了它，在映射器中它已经完成了10% )。下面我已经为我的mapper_init和映射程序附加了代码。有人知道什么会导致这样的问题吗？有人知道怎么修吗？我还应该注意，当我将输入限制在100个文件的样本上时，它可以正常工作。 """ Set c

浏览 3提问于2015-02-22得票数 0

回答已采纳

2回答

为什么Megaraid和Megaraid 1+0 = Raid 10会减慢实际读取速度？

、、

然而，当我复制一个巨大的文件，8GB，它拷贝10G以太网987 GB/s。同时，hdparm -tT /dev/md0p1提供1.5GB/S。usp=sharing 在我更改错误的raid卡之前，有什么实用的方法来复制所有数据吗？

浏览 0提问于2020-07-16得票数 1

1回答

一堆相对较小的图片正在通过Samba读取1MB/S。

、

我试图在局域网上复制这些图像，拷贝速度大约是1MB/S。我的局域网有千兆字节的速度。看起来这种情况只发生在大量的小文件中。当我复制一个大文件时，速度超过100 MB/s。对于一堆小文件来说，是否有可能使samba更快？

浏览 0提问于2017-03-09得票数 0

1回答

Hadoop多个-put命令减速

、

我正在尝试将大量数据(几千个文件加到19 to )复制到Hadoop集群中。我在文件的子集上运行bash循环，运行的循环越多，所有复制的东西就越慢 do cat $filename | sshuser@hadoop "hadoop fs -put - /path/to/new/data/$filename"; 当我在集群上

浏览 0提问于2016-12-07得票数 0

回答已采纳

1回答

有没有一种方法可以加快许多小文件的上传/下载使用onedrive-abraunegg？

、

最近，我从Windows转到Linux，并且一直存在同步OneDrive的问题。虽然onedrive-砂糖程序真的很酷，我真的很高兴使用它，但它有一个小问题。上传/下载许多小文件需要时间。问题是角需要大量的依赖(？)创造了大量的小文件。我想澄清一下，我有一个很好的网络连接。我已

浏览 0提问于2021-10-21得票数 0

2回答

如何将百万歌曲数据集等大数据集加载到BigData HDFS、Hbase、Hive？

、、、、

我已经下载了百万首歌曲数据集的一个子集，大约2 2GB。但是，数据被分解为文件夹和子文件夹。在子文件夹中，它们都是几种“H5文件”格式。我知道它可以用Python来读取。但是我不知道如何提取并加载到HDFS中，这样我就可以在Pig中运行一些数据分析。我是否将它们提取为CSV并加载到Hbase或Hive？如果有人能帮我找到合适的资源会很有帮助。

浏览 0提问于2015-10-10得票数 0

1回答

无法使用web接口上载3GB文件

、

今天我试过(至少)两次上传大约3GB的文件-每个进程对话框消失，在状态下我得到信息'93%上传完成‘-没有错误发生。UbuntuOne中没有可用的文件。浏览器: Chrome文件大小:大约3GB

浏览 0提问于2011-10-04得票数 5

4回答

如何在服务器端自动将LESS编译成CSS？

、、、、

我的一位朋友设计师正在手动编译他的小文件，并将其上传到Coda (远程站点)，花费了大量宝贵的时间。他问我：是否有可能自动检测Linux服务器上的文件更改并立即进行编译？

浏览 18提问于2012-11-29得票数 10

回答已采纳

4回答

如何高性能地复制大量的小文件？

、、

在我的示例中，我调用file.copy()将这些小文件(3KB)从不同的目录复制到不同的目录。我将源路径放在一个list<string>中。我应该使用多线程吗？

浏览 0提问于2013-12-02得票数 0

1回答

如何为具有良好读写速度的较小文件创建磁盘？

、

我试图找到最好的方法来存储大量的小文件在一个卷，而不触及inode的限制。我在做一些研究，结果发现：他们建议：“小文件”的选项是什么？另外-任何其他的建议，如何配置一个驱动器为许多小文件(~3-10 of )，将不胜感激！

浏览 0提问于2020-09-19得票数 2

回答已采纳

1回答

通过网络复制文件

我有大量的小文件。我想在windows上将它们从一个共享位置复制到另一个共享位置。我正在使用Robocopy来做这件事。然而，复制粘贴一个文件几乎需要13秒。你能告诉我我们还可以用什么其他的选择吗？

浏览 4提问于2015-06-17得票数 0

1回答

虚拟机上非常慢的文件复制速度

、、

我注意到我们的一个web服务器在复制文件时磁盘驱动速度非常慢。服务器是一个普通的Dell服务器，承载一个VM (主要用于备份和DR )。当我复制到SSD时，每秒只有大约3MB，而当复制大量较小的文件时，它通常会下降到每秒300 of。是什么导致了这种极端的性能损失？驱动器的碎片似乎可以忽略不计。 📷

浏览 0提问于2019-02-13得票数 1

1回答

MongoDB复制慢启动

我有一个启用了小文件的复制集，现在我遇到了一个实例启动/重新启动所需的大量时间，db文件计数大约需要2500个文件，加载和启动它需要将近一个小时，有什么建议可以加快这个过程吗？

浏览 1提问于2016-02-01得票数 1

回答已采纳

2回答

传输大量小文件

、、、、

当你的数据在MB甚至GB范围内时，通常的数据传输方法(scp、http和ftp实用程序，如curl或wget)可以很好地工作，但是当你有非常大的小文件集合(例如10KB)时，传输将非常慢，并且根本不会使用带宽

浏览 3提问于2018-12-16得票数 0

1回答

几个月后极端的ZFS减速

、、、

使用0.6.5.3运行Linux4.2.3内核。

浏览 0提问于2015-10-23得票数 8

4回答

镜像包含数百万个小文件的目录的最快方法

、、

我需要复制一个700克ISCSI安装的文件夹到本地硬盘驱动器上的文件夹，同时维护现有的权限和所有权。文件夹中的数据包含大约100万个文件，其中大部分是小文件，新目录需要与原始目录的权限和所有权完全匹配。数据是openvz磁盘共享，过去使用"cp“复制数据时存在权限问题。是否有更快的方法来复制大量的小文件，同时准确地保留权限和所有权？也许是一些可以避免初始扫描的rsync标志？

浏览 0提问于2011-07-15得票数 2

1回答