首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >[深度学习][OCR][原创]CRNN_Chinese_Characters_Rec训练360w数据集提示keyerror错误解决方法

[深度学习][OCR][原创]CRNN_Chinese_Characters_Rec训练360w数据集提示keyerror错误解决方法

作者头像
云未归来
发布2025-07-18 17:52:31
发布2025-07-18 17:52:31
700
举报

CRNN_Chinese_Characters_Rec训练360w数据集提示keyerror错误根本原因就是编码问题。根据代码字符集文件编码必须是gbk如果你在ubuntu或者由于某种原因导致文件变成utf-8编码的话就会提示keyerror。如果在Ubuntu不方便把文件弄成utf-8的情况下,可以到

CRNN_Chinese_Characters_Rec/lib/dataset/_360cc.py这个文件第22行将gbk改为utf-8即可

代码语言:javascript
复制
   char_file = config.DATASET.CHAR_FILE
        with open(char_file, 'rb') as file:
            char_dict = {num: char.strip().decode('gbk', 'ignore') for num, char in enumerate(file.readlines())}

改为

代码语言:javascript
复制
   char_file = config.DATASET.CHAR_FILE
        with open(char_file, 'rb') as file:
            char_dict = {num: char.strip().decode('utf-8', 'ignore') for num, char in enumerate(file.readlines())}

此外,经过研究发现360w数据集里面其实总共包含了5829个字符,并不是5990全部包含。而且大家注意一个问题就是5990字符第一个是blank这是4个字符长度,不能放进alphabets.py里面,不然就变成5994字符长度了因为b l a n k 一共是5个字符

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档