前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >图像文字识别-环境配置

图像文字识别-环境配置

作者头像
数据处理与分析
发布2022-08-30 15:06:12
1.3K0
发布2022-08-30 15:06:12
举报
絮絮叨叨

图像识别的文章发出后,有些朋友对内容比较感兴趣。但对于很多从没接触过类似内容的朋友来说,搭建一个类似的环境还是有点难度的(也就是一点)。

这篇文章,就讲讲怎么配置环境吧(主要就是下载、安装)。

下载文件

要想做文字的识别,我们需要下载这么几个文件:

tesseract

下载地址:https://github.com/UB-Mannheim/tesseract/wiki

从地址中我们可以看到,最新版已经出到5.1了。直接下载安装就行,需要注意的是下载之后记得添加全局变量

悄悄告诉你,这个软件是谷歌出品,值得信赖哟!

训练数据集

下载地址:https://github.com/tesseract-ocr/tessdata

可以看到这里有很多训练好的数据集,各位根据自己的需要,下载合适自己的数据集就好。我使用的数据集如下图所示:

Python

Python哪里下载,怎么安装我就不说了,网上内容很多。有Python的话,记得安装一个包:pytesseract

我使用的是Anaconda,也推荐大家使用,conda的包管理非常省心!

测试

在安装好上面提到的文件之后,就可以进行文字信息识别了。我们来造点数据测试一下:

准备一张写着:“数据处理与分析这公众号真不错。”的图片来识别,发现识别效果还行。

总结

通篇看下来的话,基本上就是下载、安装、配环境变量,真的超简单。做一个调包侠,是真的快乐!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据处理与分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 絮絮叨叨
  • 下载文件
    • tesseract
      • 训练数据集
        • Python
        • 测试
        • 总结
        相关产品与服务
        AI 应用产品
        文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档