Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >文字识别小项目-调用百度api文字识别,并将结果存入txt文件

文字识别小项目-调用百度api文字识别,并将结果存入txt文件

作者头像
AI深度学习求索
发布于 2018-12-11 09:01:59
发布于 2018-12-11 09:01:59
1.5K00
代码可运行
举报
文章被收录于专栏:AI深度学习求索AI深度学习求索
运行总次数:0
代码可运行

OCR小项目:调用百度api文字识别,并将结果存入txt文件

百度API: http://ai.baidu.com/tech/ocr

百度提供了文字识别的api可以利用它来做文字识别啦,要不要尝试一下,很简单哦

注意:免费使用次数有限哦

代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import os
import os.path
import sys
from aip import AipOcr
APP_ID = '10498120'
API_KEY = 'hwwISLbyb1en11SsjDyEu7tW'
SECRET_KEY = 'waOoWyci9GDlRw1CkWNtmfkHRNokwhca'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

# 读取图片,返回路径的集合
def file_name(file_dir):
 pathSet = []
 FN = []
 for root, dirs, files in os.walk(file_dir):
 for file in files:
 FN.append(file)
 pathSet.append(os.path.join(root, file))
 return pathSet

# 打开文件 读取文件内容
def get_file_content(filePath):
 with open(filePath, 'rb') as fp:
 return fp.read()

# 返回文件的类型符号,如:最后.jpg
def file_extension(path):
 return os.path.splitext(path)[1]

file_dir = 'E:images_new'
pathSet = file_name(file_dir)
result = []

for filePath in pathSet:
 # 调用通用文字识别接口
 if (file_extension(filePath) == '.jpg'):
 result = client.basicGeneral(get_file_content(filePath))
 # {'log_id': 6775584000925260612, 'words_result_num': 1, 'words_result': [{'words': '20'}]}
 if 'words_result' in result:
 rest = result['words_result'][0]['words']
 else:
 break
 f = open('E:\images_new\result.txt', 'a', encoding='utf-8')
 f.write('
'+'/images_new/' + os.path.basename(filePath) + ' ' + rest)
 f.close()

# 如果图片是url 调用示例如下
#result = client.basicGeneral('http://www.xxxxxx.com/img.jpg')
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI深度学习求索 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫自学系列(六)
这是一种比较简单粗暴的方式啊,首先如果没有验证码的需求的话,碧如我之前爬CSDN抓到自己的个人信息那次。这种方式就很好了。
看、未来
2021/02/01
4270
一次绕口令引发的“血案"
春节在家一直闲着,今天有人给我发了一个小程序,即包你说。小程序是一个绕口令,很显然对于我这种 "n l" 不分的人说,这种绕口令也太难说了。因此我就想通过 python 脚本来实现。
madneal
2022/03/11
2230
一次绕口令引发的“血案"
使用腾讯云 Cloud studio 实现调度百度AI实现文字识别
这段代码设置了百度AI的APP_ID、API_KEY和SECRET_KEY,并使用这些参数创建了一个AipOcr对象。
全栈若城
2024/02/29
1430
使用腾讯云 Cloud studio 实现调度百度AI实现文字识别
python实现批量识别图片文字,生成对应的txt文件
目录 百度api 百度api 第一步:打开网站 https://ai.baidu.com/ 第二步:注册登录 第三步: 登录成功,直接输入这个 https://console.bce.baid
一写代码就开心
2022/05/09
1.6K0
python实现批量识别图片文字,生成对应的txt文件
Python爬虫基础:验证码的爬取和识别详解
今天要给大家介绍的是验证码的爬取和识别,不过只涉及到最简单的图形验证码,也是现在比较常见的一种类型。
Python中文社区
2018/12/07
2.2K0
Python爬虫基础:验证码的爬取和识别详解
无法复制PDF的文字内容?只能说你没有看过这篇文章
先说说我为什么要写这篇文章,在这之前,我遇到了一个问题,就是复制不了PDF的文字内容,而我偏偏又想获取到。 我尝试了很多办法,先是将PDF转成Word文档,这样就可以从文档中把内容复制出来了,但是这些格式转换的工具基本都收费,自然就不用再考虑了。 我还想过将要复制的文字部分截图下来,然后发到手机上,通过手机QQ的提取文字内容功能将文字提取出来然后复制:
wangweijun
2020/02/14
2.3K0
亚某逊验证码识别-使用百度OCR
最近在抓取亚某逊的时候, 除了随机请求头之外, 还有时不时出现的验证码页面, 原来换个ip还可以, 但是时间长了, 出现的越来越频繁, 所以这次就来彻底解决这个验证码的问题
不止于python
2022/05/31
6390
亚某逊验证码识别-使用百度OCR
南航课表爬取与展示
由于学校网站登录对于移动端来说实在不友好,因而本人决定能做一个爬取自己课表的网站,且对于移动端友好的网站。但是由于本人水平不够,因而本人花了几个礼拜学习了python爬虫和Django框架,做了一个简易的爬取课表的网站。
分享者
2022/05/17
5690
南航课表爬取与展示
调用百度ai接口实现图片文字识别详解「建议收藏」
首先先介绍一下这篇博文是干嘛的,为了不浪费大家时间。公司最近和短视频公司合作,需要监控app的截图上的文字是否符合规范,也就是确保其没有违规的文字。到网上找了一些资料发现百度ai提供这个功能,这篇文章主要就是介绍怎么获取到图片上的文字。接下来进入正题,look down,man:
全栈程序员站长
2022/08/11
3.4K0
调用百度ai接口实现图片文字识别详解「建议收藏」
Python爬虫之验证码识别
Python爬虫之验证码识别 #识别车牌号 from aip import AipOcr import re APP_ID = '15469265' API_KEY = 'rAGFtOChXtO7mnRPiwXg1Frf' SECRET_KEY = 'Ailvoijh4X7lQIAoZ58UsGPlaDCmLIt7' client = AipOcr(APP_ID, API_KEY, SECRET_KEY) """ 读取图片 """ def get_file_content(filePath):
yuanshuai
2022/08/22
4680
手把手教截图识别文字
https://cloud.baidu.com/doc/OCR/index.html
润森
2019/09/20
2.3K0
手把手教截图识别文字
利用Python识别电子账单
有一定数量类似如下截图所示的账单,利用 Python 批量识别电子账单数据,并将数据保存到Excel。
数据森麟
2021/02/08
9430
python语音识别
语音识别技术,也被称为自动语音识别,目标是以电脑自动将人类的语音内容转换为相应的文字。应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
py3study
2018/08/03
17.8K3
python语音识别
python下基于图片的文字识别与获取
上篇文章了解了基于pyautoGUI库的元素识别,这次又遇到一个问题:桌面应用程序做自动化测试时,无法识别到页面元素,且页面的元素,每运行一次都会变动(累计增加),为了达到目的,在网上找了相关资料,坐下总结
用户6367961
2020/03/23
3K0
python下基于图片的文字识别与获取
不会玩阴阳师的我带你一键下载《阴阳师:百闻牌》所有卡牌并调用百度OCR识别文字信息
一天,一个朋友给我发来一条链接https://ssr.163.com/cardmaker/#/,让我帮他看看怎么能获取到网页中所有的图片链接。我打开链接一看,页面的标题是阴阳师:百闻牌,下面有选择栏,再下边就是各种奇奇怪怪的看不懂的图片,我就问他这是什么呀?他说是一个游戏阴阳师里边的卡牌。怪不得我没听过,因为我不玩游戏,一个准程序猿不玩游戏一定有很多人不相信 ,但是确实如此,我从未玩过游戏 。 但是这并不影响我来分析网页得到图片,网页如下:
cutercorley
2020/07/23
1.4K0
不会玩阴阳师的我带你一键下载《阴阳师:百闻牌》所有卡牌并调用百度OCR识别文字信息
【python实战】自制带文字识别的截屏工具
哈喽,大家好,我是一条。 好久没出python的教程了,今天教大家做个好玩又实用的。 点赞,收藏准备好。 前言 不知道大家工作中有没有遇到这种情况 产品不知道从哪搞来的截图就这么粘在需求文档上,你还得一个一个敲,气的我这…… 网上有个资料,死活就是不让你复制,气的我这…… 有篇技术文章,代码全是截图,气的我这…… ok。别气了,求人不如求自己,一条教你自制带文字识别的截图工具。 成品展示 现已将文件设置成开机自启动,并一直在后台运行; 当监听到有截屏操作时,保存剪切板的文件; 调用百度开放API进行文字识别
一条coding
2021/08/12
2.1K0
【python实战】自制带文字识别的截屏工具
[python从入门到放弃]基于百度OCR的文字识别
https://cloud.baidu.com/doc/OCR/s/Rjwvxzm3n。按照文档安装百度aip库,命令行输入魔法如下:
周星星9527
2019/08/19
3.5K0
巧用校验码
我们登录系统的时候,会经常遇到要输入校验码,这里教一下大家怎么利用图像识别技术来获取图片中的信息 一、首先我们要利用百度的智能云,利用第三方识别工具完成 登录百度智能云 : https://c
小雯子打豆豆
2020/06/19
7900
PYTHON之帮我命名截图
自己平时可能会收各种各样的截图,班级同学在图片上编辑上学号姓名都会,但是让同学们将图片命名成学号姓名后再发过来,他(她)们就有点困难了,因为大部分人都是习惯用手机操作,而对于文件管理不熟悉。为了简化班级同学以及方便自己,正好学这python,于是就开始尝试。首先想到的是腾讯每个月免费的1000次图片文字识别,最后又了解百度免费额度更多,于是两者就都使用上了。最后经过一番折腾有了以下功能。
布衣者
2021/09/07
4580
python调用百度AI提取图片文字
python本身也有识别图片转文字的框架,但是相比调用接口,识别的精度就略显不行了;
py3study
2020/01/13
5.5K0
相关推荐
Python爬虫自学系列(六)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验