首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

通用OCR介绍

General OCR,即通用类OCR(General Optical Character Recognition),是一种支持多种格式图片上文字信息自动化识别的技术。以下是对General OCR的详细介绍:

###一、功能特点

1. **多场景识别**:支持通用文字识别、通用表格识别、网络图片识别、智能分类识别、手写文字识别等多种功能。可以识别扫描文件、电子文档、书籍、票据、表单等多种场景的文字,包括印刷体、艺术字、竖行文本等,以及手写文字信息。

2. **自适应分析**:能够自适应分析各种版面和表格,快速实现各种文档电子化。对于不同大小的表格、跨行跨列等复杂格式,也能准确识别。

3. **高精度识别**:采用先进的深度学习技术和算法,识别精度高。印刷体整体识别准确率达95%以上,手写体达90%以上。对于数值、符号等关键字段有特殊优化,确保识别结果准确。

4. **多语言支持**:支持中英文、日语、韩语、西班牙语、法语、德语等多语言识别,并不断更新迭代模型,扩充支持的广度。

5. **易用性**:提供预付费和后付费两种计费模式,用户可以根据自身业务场景灵活选择。同时,OCR服务SDK供用户免费下载,并依据API调用次数进行收费。

###二、应用场景

1. **纸质文件电子化**:可以快速将纸质文件转换为电子文档,方便存储、检索和分享。

2. **快递单自动填写**:通过识别快递单上的文字信息,实现自动填写,提高工作效率。

3. **合同录入与审核**:可以自动识别合同中的文字信息,建立电子化档案,有助于快速检索和审核。

4. **企业历史文件与报表电子化归档**:识别文件与报表中的文字信息,建立电子化档案,方便企业管理和查询。

###三、技术优势

1. **统一的端到端模型**:与传统的多模块流水线式架构相比,General OCR采用了统一的端到端模型,能够在同一个框架内处理多种字符形式,包括文本、图表、几何图形等。

2. **高压缩率的编码器和长上下文解码器**:引入了高压缩率的编码器和长上下文解码器,使得模型能够在多种OCR任务中表现出色。同时,模型计算成本低,具备强大的通用性。

3. **丰富的合成数据**:在模型训练过程中,使用了大量的合成数据,包括数学公式、分子结构和几何图形等特定任务的合成数据。这些数据的加入使得模型的OCR能力得到了显著扩展,确保其在各种应用中的通用性。

###四、使用建议

1. **图片预处理**:为了提高识别准确率,建议在识别前对图片进行预处理,包括去背景、倾斜矫正、图像增强等。

2. **适当压缩图片大小**:图片大小会影响网络传输、图片base64解码等处理过程的时间。因此,在图片文字清晰的情况下,适当压缩图片的大小可以降低识别时间。

3. **选择合适的计费模式**:根据自身业务场景和需求选择合适的计费模式,以降低成本并提高效益。

综上所述,General OCR作为一种先进的文字识别技术,在多个领域和场景中发挥着重要作用。随着人工智能和深度学习技术的不断发展,相信OCR技术将在未来发挥更加重要的作用。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ohq8aQO_1IAGO2urtd7buf_A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券