首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌开源 TFRecorder,几行代码即可高效创建数据集

在训练计算机视觉机器学习模型时,数据加载常常会成为性能瓶颈,导致在等待将数据加载到模型中时 GPU 或 TPU 资源的利用率不足。以 TFRecord 格式存储数据集是一个行之有效的方法,然而,创建 TFRecord 通常需要大量的复杂代码。

于是,谷歌近期开源了 TensorFlow Recorder(即 TFRecorder)项目,旨在简化 TFRecord 的创建流程。TFRecord是一种二进制文件格式,处理数据相对高效,但要将其他数据转为 TFRecord 较为麻烦,通常需要编写一个数据管道来解析结构化数据,从存储中加载图像,然后再将结果序列化为 TFRecord 格式。

而此次开源的 TFRecorder 能够直接从 Pandas dataframe 或 CSV 等格式写入 TFRecords,无需再编写复杂的代码。

使用 TFRecorder 创建 TFRecord 只需要几行代码,运行方式如下:

TFRecorder 期望写入的数据与 Google AutoML Vision 的格式相同,也就是类似 pandas dataframe 或 CSV 的格式,例如:

目前,TFRecorder 支持的数据格式还很有限,将来会进一步扩展,以支持使用任何格式的数据。

对于更庞大的数据集,TFRecorder 还提供了与 Google Cloud Dataflow 的连接性,扩展到 DataFlow 仅需要多几行代码配置。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200811A0715K00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券