在机器学习和深度学习任务中,我们通常需要将图像数据集拆分为训练集和测试集,以便进行模型训练和评估。拆分图像数据集的常用方法是随机拆分和按类别拆分。
示例代码:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(images, labels, test_size=0.2, random_state=42)
其中,images为图像数据集,labels为对应的标签,test_size表示测试集占总样本的比例,random_state为随机种子,用于保证每次拆分结果的一致性。
示例代码:
from sklearn.model_selection import StratifiedShuffleSplit
splitter = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
train_indices, test_indices = next(splitter.split(images, labels))
X_train, y_train = imagestrain_indices, labelstrain_indices
X_test, y_test = imagestest_indices, labelstest_indices
其中,images为图像数据集,labels为对应的标签,test_size表示测试集占总样本的比例,random_state为随机种子,用于保证每次拆分结果的一致性。
无论是随机拆分还是按类别拆分,拆分后的训练集和测试集可以分别用于模型的训练和评估。在实际应用中,可以根据具体需求和数据集特点选择合适的拆分方法。
领取专属 10元无门槛券
手把手带您无忧上云