Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >github优秀项目分享:基于yolov3的轻量级人脸检测、增值税发票OCR识别 等8大项目

github优秀项目分享:基于yolov3的轻量级人脸检测、增值税发票OCR识别 等8大项目

作者头像
公众号机器学习与AI生成创作
发布于 2020-09-14 09:36:10
发布于 2020-09-14 09:36:10
3K0
举报

文章来源:七月在线实验室

01

yolo-face-with-landmark 使用pytroch实现的基于yolov3的轻量级人脸检测

实现的功能:

添加关键点检测分支,使用wing loss。

安装和使用:

git clone https://github.com/ouyanghuiyu/yolo-face-with-landmark 使用src/retinaface2yololandmark.py脚本将retinaface的标记文件转为yolo的格式使用 使用src/create_train.py 创建训练样本

测试:

在wider face val精度(单尺度输入分辨率:320*240)

在wider face val精度(单尺度输入分辨率:640*480)

项目地址:

https://github.com/ouyanghuiyu/yolo-face-with-landmark

02

metfaces-dataset 从艺术品中提取的人脸图像数据集

MetFaces是从艺术品中提取的人脸图像数据集,最初是我们在以下方面的工作之一:

用有限的数据训练生成对抗网络

该数据集包含1336个分辨率为1024×1024的高质量PNG图像。这些图像是通过大都会艺术博物馆收藏的API下载的,并使用dlib自动对齐和裁剪。各种自动过滤器用于修剪设备。

所有数据都托管在Google云端硬盘上:

项目地址:

https://github.com/NVlabs/metfaces-dataset

03

invoice 增值税发票OCR识别

增值税发票OCR识别,使用flask微服务架构,识别type:增值税电子普通发票,增值税普通发票,增值税专用发票;识别字段为:发票代码、发票号码、开票日期、校验码、税后金额等。

环境:

python3.5/3.6 依赖项安装: pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

模型架构:

Y0L0v3+CRNN+CTC

模型:

模型下载地址:

https://pan.baidu.com/s/1bjtd3ueiUj3rt16p2_YQ2w

将下载完毕的模型文件夹models放置于项目根目录下。

服务启动:

python3 app.py

服务调用地址:

http://...: [端口号]/invoice-ocr,例:http://127.0.0.1:11111/invoice-ocr

项目地址:

https://github.com/guanshuicheng/invoice

04

OpenSelfSup 自监督学习工具箱和基准

以下是无监督学习,自监督学习和表象学习之间的关系。此项目专注于阴影区域,即无监督的表示学习。自监督的表示学习是它的主要分支。

由于在很多情况下,我们不会严格区分自监督表示学习和无监督表示学习,因此我们仍将此项目称为OpenSelfSup。

主要特征:

所有方法都在一个存储库中 灵活性和可扩展性 OpenSelfSup遵循MMDetection的类似代码体系结构,但比MMDetection更加灵活,因为OpenSelfSup集成了各种自我监督的任务,包括分类,联合聚类和特征学习,对比学习,带有存储库的任务等。 效率 所有方法都支持多机多GPU分布式训练。 标准化基准 对基准进行了标准化,包括逻辑回归,线性探测特征的SVM /低速SVM,半监督分类和对象检测。

项目地址:

https://github.com/open-mmlab/OpenSelfSup

05

detectron2 对象检测和分割平台

Detectron2是Facebook AI Research的下一代软件系统,可实现最新的对象检测算法。它是对先前版本Detectron的完全重写,它源自maskrcnn-benchmark。

特性:

由PyTorch深度学习框架提供支持。 包括更多功能,例如全景分割,密集姿势,Cascade R-CNN,旋转边界框等。 可用作库来支持基于它的不同项目。我们将以这种方式开源更多的研究项目。 训练得更快。

通常会根据对ImageNet分类任务进行预训练的骨干模型进行初始化。提供以下主干模型:

R-50.pkl:MSRA原始ResNet-50模型的转换副本。 R-101.pkl:MSRA原始ResNet-101模型的转换副本。 X-101-32x8d.pkl:在FB用Caffe2训练的ResNeXt-101-32x8d模型。 R-50.pkl(torchvision):Torchvision的ResNet-50模型的转换副本。

项目地址:

https://github.com/facebookresearch/detectron2

06

person-reid-3d 3D空间中的人员重新识别

系统需求:

Python 3.6 or 3.7 GPU Memory >= 4G (e.g., GTX1080) Pytorch = 1.4.0 dgl

效果:

项目地址:

https://github.com/layumi/person-reid-3d

07

neoml 深度学习和传统算法的机器学习框架

NeoML是一个端到端的机器学习框架,可让您构建,训练和部署ML模型。ABBYY工程师将该框架用于计算机视觉自然语言处理任务,包括图像预处理,分类,文档布局分析,OCR以及从结构化和非结构化文档中提取数据。

关键特性:

支持100多种图层类型的神经网络 传统机器学习:20多种算法(分类,回归,聚类等) CPU和GPU支持,快速推断 ONNX支持 语言:C++,JavaObjective-C 跨平台:相同的代码可以在WindowsLinux,macOS,iOSAndroid上运行

支持平台:

项目地址:

https://github.com/neoml-lib/neoml

08

AlphaVideo 用于视频相关任务的视觉工具箱,包括动作识别,多对象跟踪

AlphaVideo是基于PyTorch的开源视频理解工具箱,涵盖多对象跟踪和动作检测。

在AlphaVideo中,我们发布了第一个单阶段多目标跟踪(MOT)系统TubeTK,该系统可以在MOT-16数据集上实现66.9 MOTA,在MOT-17数据集上实现63 MOTA。

对于动作检测,我们发布了一个有效的模型AlphAction,这是第一个开源项目,在AVA数据集上使用单个模型即可达到30+ mAP(32.4 mAP)。

特性与功能:

多目标追踪 提供了TubeTK模型,该模型是论文“ TubeTK:在一步式训练模型(CVPR2020,口头)中采用管来跟踪多目标”的正式实现。

精确的端到端多对象跟踪。 不需要任何现成的图像级对象检测模型。 行人跟踪的预训练模型。 输入:帧列表;视频。 输出:用彩色边框装饰的视频;Btube列表。

动作识别 提供AlphAction模型作为论文“用于动作检测的异步交互聚合”的实现。

准确而有效的动作检测。 针对AVA中定义的80种原子作用类别的预训练模型。 输入:视频;相机。 输出:由人为盒子装饰的视频,并附有相应的动作预测。

项目地址:

https://github.com/Alpha-Video/AlphaVideo


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与AI生成创作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于发票增值税OCR API设计自动识别应用系统,从此解放财务双手
增值税发票是企业和机构进行财务报销和结算时的一种重要凭证,每月的开票数量往往非常庞大,人工处理起来十分繁琐和耗时,容易出现误差。最重要的是,这种重复性的、机械性的工作根本不能提高财务工作的质量。
不是海碗
2023/04/06
8580
基于发票增值税OCR API设计自动识别应用系统,从此解放财务双手
【增值税发票识别 OCR】如何实现自动化发票管理
在现代商业环境中,管理和处理大量的增值税发票数据是一项繁琐而重要的任务。传统的手动处理方法既费时又容易出错,而使用增值税发票识别OCR API可以实现自动化的发票管理,大大减少人工处理的工作量。本文将介绍如何利用增值税发票识别OCR API实现智能化的增值税发票识别、分类和归档,从而实现自动化的发票管理流程。
用户10428865
2023/06/21
3900
基于腾讯云OCR|赋能企业财务运营,高效与便捷同行
在当今数字化迅猛发展的时代,数据信息的保存与数据分析对企业的决策和工作方向具有极为重要的指导价值。尤其在当前经济形势欠佳的情况下,企业财务运营部门怎样助力企业更有效地管控成本、提升资金利用率,已然成为一个极为紧迫且亟待解决的问题。
六月的雨在Tencent
2024/12/21
9380
大小仅1MB,超轻量级通用人脸检测模型登上GitHub趋势榜
项目地址:https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB
机器之心
2019/10/15
7860
大小仅1MB,超轻量级通用人脸检测模型登上GitHub趋势榜
智能结构体 | OCR助力OA,如何实现报销两天到账
第一次接触OCR,还是在18年刚毕业的时候。那时候热衷于爬虫,在爬取数据的过程中总会遇到形形色色的验证码问题。虽然有很多打码平台可以解决这个问题,但是我还是趁着这个机会去学习了OCR的知识。
叫我阿柒啊
2025/01/07
2756
智能结构体 | OCR助力OA,如何实现报销两天到账
2020年,那些「引爆」了ML社区的热门论文、库和基准
不平凡的 2020 年终于过去了!这一年,由于新冠肺炎疫情的影响,CVPR、ICLR、NeurIPS 等各大学术会议都改为线上举行。但是,机器学习社区的研究者和开发者没有停下脚步,依然贡献了很多重大的研究发现。
机器之心
2021/03/15
5070
2020年,那些「引爆」了ML社区的热门论文、库和基准
01. OCR 文字识别学习路径
由于最近在接触一些OCR的工作,所以本期《晓说AI》和大家分享一下我的一些总结,先从基本的概念讲起。如有错误,还请指正,谢你3千遍。如有疑问,欢迎留言,我会第一时间答复。
Aalto
2019/10/12
13.1K0
01. OCR 文字识别学习路径
yolov5人脸检测,带关键点检测
代码说明: 1,在yolov5的检测基础上,加上关键点回归分支,请先下载yolov5的工程:https://github.com/ultralytics/yolov5 2,detect_one.py是单张图片的测试代码, 基于部分wideface训练的模型,稍后在百度云公开。 代码 获取方式: 分享本文到朋友圈 关注微信公众号 datayx 然后回复 人脸 即可获取。 AI项目体验地址 https://loveai.tech 主要修改代码部分: (1)hyp.scatch.yaml中增加关键点
机器学习AI算法工程
2021/05/11
2.9K0
yolov5人脸检测,带关键点检测
GitHub 项目推荐 | 轻量级中文 OCR
今天和大家介绍一个超轻量级的中文 OCR 项目,目前这个项目已在 GitHub 上标星 6.7k。
机器学习之禅
2022/07/11
3.1K0
GitHub 项目推荐 | 轻量级中文 OCR
推荐几篇开源论文,包含人脸、目标检测跟踪、分割、去噪、超分辨率等
本文推荐本周值得关注的已开源论文,包含图像超分辨率、利用疼痛类型之间的域迁移来识别马的疼痛表情的研究、人脸检测识别、图像去噪、分割、手写文本行分割、妆容迁移与卸妆、伪装物体检测等共计 12 篇。
CV君
2021/06/08
9280
推荐几篇开源论文,包含人脸、目标检测跟踪、分割、去噪、超分辨率等
2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)
工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则。选择与开发内容相匹配的工具,常常会使我们事半功倍。但面对人工智能的多个领域,如:机器学习、深度学习、NLP等等,多样的工具有时也让我们也无从选择。
AI算法与图像处理
2020/02/19
8900
2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)
实测超轻量中文OCR开源项目,总模型仅17M
光学字符识别(OCR)现在已经有很广泛的应用了,很多开源项目都会嵌入已有的 OCR 项目来扩展能力,例如 12306 开源抢票软件,它就会调用其它开源 OCR 服务来识别验证码。很多流行的开源项目,其背后或多或少都会出现 OCR 的身影。
OpenCV学堂
2020/03/10
1.9K0
实测超轻量中文OCR开源项目,总模型仅17M
GitHub榜首:最强目标检测平台Detectron2 ,基于PyTorch完全重构
虽然在某些特定的场景下计算机可以比人类更快、更精准的识别出目标,但实际上,由于各类物体在不同的观测角度、不同的光照成像、遮挡等因素的干扰,计算机视觉的图像识别迄今为止还未能完全达到人类的水平,更遑论超越了。因此目标检测一直以来都是计算机视觉非常基础、也最具有挑战性的课题。
朱晓霞
2019/10/21
1.9K0
GitHub榜首:最强目标检测平台Detectron2 ,基于PyTorch完全重构
百度大脑3月新品推荐:EasyDL视频目标追踪全新发布
经过不断的技术优化和沉淀,百度大脑 AI 开放平台已经成为企业智能化升级道路上重要的技术支撑,通过百度智能云赋能各行各业实现产业智能化。本月EasyDL OCR 自训练平台全面开放,内置百度领先的 OCR 预训练模型,可快捷完成数据标注并批量生成虚拟数据,大幅扩充训练集,低成本零门槛定制专属的高精度 OCR 模型。
用户1386409
2021/05/07
6370
百度大脑3月新品推荐:EasyDL视频目标追踪全新发布
超越YOLOv5还不够!这个目标检测开源项目又上新了
作为目标检测领域的扛把子,PaddleDetection当然不仅仅提供通用目标检测算法,还拥有多个业界先进、实用的关键点检测和多目标跟踪算法。除了可以准确识别、定位目标,还可以对移动的目标进行连续跟踪、分析路径,甚至进行姿态、行为分析!
Amusi
2021/06/09
2.2K1
超越YOLOv5还不够!这个目标检测开源项目又上新了
安利一款开源 OCR 工具,可快速提取截屏文字!
今天我们就为大家介绍一款 GitHub 用户 ianzhao05 刚发布的小工具 ——textshot,只需要截屏就能实时生成文字。读者也可以通过此项目大致了解如何对图像中的文本进行识别。
程序猿DD
2020/12/18
2.6K0
安利一款开源 OCR 工具,可快速提取截屏文字!
超轻量级中文OCR,支持竖排文字识别、ncnn推理,总模型仅17M
光学字符识别(OCR)技术已经得到了广泛应用。比如发票上用来识别关键字样,搜题App用来识别书本上的试题。
AI科技大本营
2020/03/17
4.1K0
2017年度盘点:Github上十大有趣的机器学习项目
目录: 1 AlphaZero-Gomoku 2 OpenPose 3 Face Recognition 4 Magenta 5 YOLOv2 6 MUSE 7 Arnold 8 FoolNLTK 9 Gym 10 style2paints v2.0 1 AlphaZero-Gomoku 用Alpha元下五子棋 项目链接:https://github.com/junxiaosong/AlphaZero_Gomoku 这个项目使用Alpha元算法,通过自训练实现玩五子棋。由于五子棋相比围棋或国际象棋简单得多,
企鹅号小编
2018/01/11
1.9K0
2017年度盘点:Github上十大有趣的机器学习项目
【光学字符识别】OCR 浅述
文字是信息的重要载体之一。通过书写、印刷、电子设备等方式,文字可以被记录下来并传递给他人。文字也是语言的重要组成部分,人们可以通过文字来表达自己的思想、感情和意图。在信息化时代,文字仍然是最基本、最重要的信息传递方式之一,也有着其不可替代的优势,如:简短明了、方便快捷、易于编辑、可归纳整理等。
青橙.
2023/08/25
8550
开源项目汇总:机器学习前沿探索 | 开源专题 No.60
xFormers 是一个加速 Transformer 研究的工具包,主要功能如下:
小柒
2024/01/06
2740
开源项目汇总:机器学习前沿探索 | 开源专题 No.60
推荐阅读
相关推荐
基于发票增值税OCR API设计自动识别应用系统,从此解放财务双手
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档