首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自然语言处理-错字识别(基于Python)kenlm、pycorrector

中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种...错误纠正 通过错误检测定位所有疑似错误后,取所有疑似错字的音似、形似候选词, 使用候选词替换,基于语言模型得到类似翻译模型的候选排序结果,得到最优纠正词。...音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。...几个现成的工具包: https://github.com/shibing624/pycorrector pycorrector 简介:考虑了音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正

16.4K61
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    拼写、常识、语法、推理错误都能纠正,云从提出基于BART的语义纠错方法

    近些年来,随着自动语音识别(ASR)技术的发展,识别准确率有了很大的提升。但是,在 ASR 转写结果中,仍然存在一些对人类来说非常明显的错误。我们并不需要听音频,仅通过观察转写的文本便可发现。...在我们一万小时数据的实验中,纠错模型可以将基于 3gram 解码结果的错字率(CER)相对降低 21.7%,取得与 RNN 重打分相近的效果。...对 MFCC 特征增加扰动,将 MFCC 特征随机乘上一个 0.8 到 1.2 之间的系数; 将带噪声的特征输入到弱声学模型,取 beam search 前 20 条结果,并根据错字率阈值筛选样本。...但是输入文本中的错字相对于其规范的用法蕴含更多的语义,而输出文本中仅使用规范的字词进行表达。因此,将输入和输出侧的 token 采用独立的表示,更符合纠错任务的需求。表一的结果证明了我们的这个推论。...表二结果显示 BART 初始化可以将基线 ASR 的错字率降低 21.7%,但是 BERT 初始化的模型相对随机初始化模型的提升非常有限。

    1.1K40

    DCIC摸奖赛大型翻车现场

    老肥今天和大家分享的是今年DCIC的OCR赛题-基于文本字符的交易验证码识别,我和@Ernnnn同学租卡打比赛血本无归(本想着线上线下非常稳定,肝一肝稳恰没想到后面演变成了摸奖),同时本次比赛体验相当差...本次大赛以已标记字符信息的实例字符验证码图像数据为训练样本,参赛选手需基于提供的样本构建模型,对测试集中的字符验证码图像进行识别,提取有效的字符信息。...解决方案 由于本次验证码图像为定长4位字符,我们采用了多标签多分类的方法,将每一张图片的四位验证码看成四个标签,每个标签都有数字字母共计62种分类,其效果要优于CTC Loss那一套识别方法(只达到不到...根据对模型预测错例的观察,我们发现模型出错的地方主要集中在大小写字母Oo、Ii、Uu等肉眼也难以分辨的字符上,为了提升对于这些易错字符的识别准确率,一个自然的想法是增加额外的数据,于是我们使用了imagecaptcha...在制作额外的验证码时,我们增大这些易错字符的权重,使得生成的验证码图片包含大量的易错字符供模型学习,最终也提升了模型的性能。

    32530

    视频识别 动作识别 实时异常行为识别 等所有行为识别

    大家好,我是cv君,很多大创,比赛,项目,工程,科研,学术的炼丹术士问我上述这些识别,该怎么做,怎么选择框架,今天可以和大家分析一下一些方案: 用单帧目标检测做的话,前后语义相关性很差(也有优化版),...当然可以通过后处理判断下巴是否过框,效果是不够人工智能的),高抬腿计数,目标检测是无法计数的,判断人物的球类运动,目标检测是有很大的误检的:第一种使用球检测,误检很大,第二种使用打球手势检测,遇到人物遮挡球类,就无法识别目标...开始 目前以手势和运动识别为例子,因为cv君没什么数据哈哈 项目演示: 本人做的没转gif,所以大家可以看看其他的演示效果图,跟我的是几乎一样的~ 只是训练数据不同 ​ ​ ​ ​ 一、 基本过程和思想

    4.6K20
    领券