在深度学习中,数据是模型训练的基石。高质量的数据处理和准备是模型成功的关键。无论是使用经典的数据集(如 MNIST、CIFAR-10),还是处理自定义数据集,都需要掌握数据加载、预处理和增强的技巧。本节将介绍如何加载常用的数据集。
在 PaddlePaddle 中,加载内置数据集非常简单。PaddlePaddle 提供了 paddle.vision.datasets 模块,其中包含了许多常用的数据集(如 MNIST、CIFAR-10 等)。可以直接使用这些模块来加载数据,并进行后续的处理和训练。
使用 paddle.vision.datasets 模块加载内置数据集
paddle.vision.datasets 模块提供了多个经典数据集的接口,例如:
MNIST:手写数字数据集。
CIFAR10:10 类物体的彩色图像数据集。
CIFAR100:100 类物体的彩色图像数据集。
FashionMNIST:时尚物品图像数据集。
这些数据集可以通过简单的几行代码加载,并且支持自动下载和数据预处理。
示例:加载 MNIST 数据集并查看数据格式
import paddle
from paddle.vision.datasets import MNIST
from paddle.vision.transforms import ToTensor
train_dataset = MNIST(mode='train', transform=ToTensor())
test_dataset = MNIST(mode='test', transform=ToTensor())
print(f"训练集样本数: {len(train_dataset)}")
print(f"测试集样本数: {len(test_dataset)}")
# 获取第一个样本
image, label = train_dataset[0]
print(f"图像形状: {image.shape}")
print(f"标签: {label}")
import matplotlib.pyplot as plt
image1 = image.squeeze().numpy()
# 可视化图像
plt.imshow(image1, cmap='gray')
plt.title(f"Label: {label}")
plt.show()
# 如果出现无法显示的bug则需要再运行一次
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。