可以通过以下步骤实现:
import os
import shutil
from sklearn.model_selection import train_test_split
os.makedirs('train', exist_ok=True)
os.makedirs('test', exist_ok=True)
# 假设数据集文件夹名为"dataset"
shutil.copytree('/content/dataset', '/content/dataset_copy')
# 假设将80%的数据用于训练,20%的数据用于测试
train_ratio = 0.8
test_ratio = 0.2
# 获取数据集中的所有文件名
file_names = os.listdir('/content/dataset_copy')
# 利用train_test_split函数拆分数据集
train_files, test_files = train_test_split(file_names, test_size=test_ratio, random_state=42)
# 将训练文件拷贝到训练文件夹
for file in train_files:
shutil.copy(os.path.join('/content/dataset_copy', file), '/content/train')
# 将测试文件拷贝到测试文件夹
for file in test_files:
shutil.copy(os.path.join('/content/dataset_copy', file), '/content/test')
# 删除拷贝的数据集文件夹
shutil.rmtree('/content/dataset_copy')
通过以上步骤,你可以在Google Colab中将训练和测试文件进行拆分,并将它们分别存储在"train"和"test"文件夹中。这样可以方便地在训练模型时使用训练数据集,在测试模型时使用测试数据集。
领取专属 10元无门槛券
手把手带您无忧上云