首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何像IAM数据集一样创建自己的手写数据集

如何像IAM数据集一样创建自己的手写数据集
EN

Stack Overflow用户
提问于 2018-09-13 12:23:02
回答 1查看 2.6K关注 0票数 0

我需要创建我自己的手写字符数据集,格式就像Iam笔迹数据库一样。我不知道如何创建这样的数据集,我需要您可以从他们的站点检查数据集格式--我需要创建data/ascii/words.txt和data /word/

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-30 11:29:40

没有关于创建IAM笔迹数据库的说明。但你可以在这里找到:利用TensorFlow构建手写体文本识别系统

代码语言:javascript
复制
import os
import numpy as np
import cv2

class DataProvider():
    "this class creates machine-written text for a word list. TODO: change getNext() to return your samples."

    def __init__(self, wordList):
        self.wordList = wordList
        self.idx = 0

    def hasNext(self):
        return self.idx < len(self.wordList)

    def getNext(self):
        img = np.ones((32, 128), np.uint8)*255
        word = self.wordList[self.idx]
        self.idx += 1
        cv2.putText(img,word,(2,20), cv2.FONT_HERSHEY_SIMPLEX, 0.4, (0), 1, cv2.LINE_AA)
        return (word, img)


def createIAMCompatibleDataset(dataProvider):
    "this function converts the passed dataset to an IAM compatible dataset"

    # create files and directories
    f = open('words.txt', 'w+')
    if not os.path.exists('sub'):
        os.makedirs('sub')
    if not os.path.exists('sub/sub-sub'):
        os.makedirs('sub/sub-sub')

    # go through data and convert it to IAM format
    ctr = 0
    while dataProvider.hasNext():
        sample = dataProvider.getNext()

        # write img
        cv2.imwrite('sub/sub-sub/sub-sub-%d.png'%ctr, sample[1])

        # write filename, dummy-values and text
        line = 'sub-sub-%d'%ctr + ' X X X X X X X ' + sample[0] + '\n'
        f.write(line)

        ctr += 1


if __name__ == '__main__':
    words = ['some', 'words', 'for', 'which', 'we', 'create', 'text-images']
    dataProvider = DataProvider(words)
    createIAMCompatibleDataset(dataProvider)

哈拉尔德谢德尔编写的源代码。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52313677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档