首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >paddle深度学习7 数据集的加载

paddle深度学习7 数据集的加载

原创
作者头像
用户11104668
发布于 2025-01-13 06:51:20
发布于 2025-01-13 06:51:20
1760
举报
文章被收录于专栏:paddle深度学习paddle深度学习

深度学习中,数据是模型训练的基石。高质量的数据处理和准备是模型成功的关键。无论是使用经典的数据集(如 MNIST、CIFAR-10),还是处理自定义数据集,都需要掌握数据加载、预处理和增强的技巧。本节将介绍如何加载常用的数据集。

在 PaddlePaddle 中,加载内置数据集非常简单。PaddlePaddle 提供了 paddle.vision.datasets 模块,其中包含了许多常用的数据集(如 MNIST、CIFAR-10 等)。可以直接使用这些模块来加载数据,并进行后续的处理和训练。

使用 paddle.vision.datasets 模块加载内置数据集

paddle.vision.datasets 模块提供了多个经典数据集的接口,例如:

MNIST:手写数字数据集。

CIFAR10:10 类物体的彩色图像数据集。

CIFAR100:100 类物体的彩色图像数据集。

FashionMNIST:时尚物品图像数据集。

这些数据集可以通过简单的几行代码加载,并且支持自动下载和数据预处理

示例:加载 MNIST 数据集并查看数据格式

import paddle

from paddle.vision.datasets import MNIST

from paddle.vision.transforms import ToTensor

train_dataset = MNIST(mode='train', transform=ToTensor())

test_dataset = MNIST(mode='test', transform=ToTensor())

print(f"训练集样本数: {len(train_dataset)}")

print(f"测试集样本数: {len(test_dataset)}")

# 获取第一个样本

image, label = train_dataset[0]

print(f"图像形状: {image.shape}")

print(f"标签: {label}")

import matplotlib.pyplot as plt

image1 = image.squeeze().numpy()

# 可视化图像

plt.imshow(image1, cmap='gray')

plt.title(f"Label: {label}")

plt.show()

# 如果出现无法显示的bug则需要再运行一次

图片

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档