上次提到最近做车牌识别,模型训练出来的正确率很高,但放到真实场景里面,识别率勉强及格,究其原因还是缺少真实环境数据集。车牌涉及个人隐私,也无法大量采集到,国内有一个公开的就是中科大的CCPD车牌数据集,但车牌基本都是皖A打头的,因为采集地点在合肥。基于这个原因,训练的车牌数据集只好自己生成,和大家分享一下这个生成思路,
第一步是先要随机生成一些车牌号
"京", "沪", "津", "渝", "冀", "晋", "蒙", "辽", "吉", "黑", "苏", "浙", "皖", "闽", "赣", "鲁", "豫", "鄂", "湘", "粤", "桂",
"琼", "川", "贵", "云", "藏", "陕", "甘", "青", "宁", "新", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "A","B", "C", "D", "E", "F", "G", "H", "J", "K", "L", "M", "N", "P", "Q", "R", "S", "T", "U", "V", "W", "X","Y", "Z"
65个字符按照一定的规则随机组合,比如第一位为汉字,第二位为某个字母,剩下的汉字和字母随机组合,
第二步找一张完整的车牌背景图,上面没文字,通过PIL库的draw函数把对应的文字按照车牌标准写到这张车牌背景图
第三步增加旋转、扭曲、高斯模糊等渲染车牌图像,最后把处理后的车牌融入到一张背景图上得到车牌数据集