首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pyhanlp自然语言处理中的新词识别

新词发现 本“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表。...List extractWords(BufferedReader reader, int size) throws IOException     /**      * 提取词语(新词发现...static List extractWords(String text, int size, boolean newWordsOnly)     /**      * 提取词语(新词发现...该构造函数如下: /**  * 构造一个新词识别工具  * @param max_word_len 词语最长长度  * @param min_freq 词语最低频率  * @param min_entropy...max_word_len, float min_freq, float min_entropy, float min_aggregation, boolean filter) 其中: · max_word_len控制识别结果中最长的词语长度

84700
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    干货 | 基于CNN的新词发现算法

    综上,新词发现是我们当下需要解决的问题。 一、传统无监督的方法 中文新词发现这个问题,在业界已经有了较为成熟的解法。输入是一些语料,将这些文本做NGram切分以后,产生候选片段。...描述这三个指标的文章网上也有很多,这里简单介绍一下,细节可以参考Hello NLP和Smooth NLP的两篇新词发现文章。 1.1 热度 使用词频来表示热度。...三、基于深度学习的新词发现 3.1 词频概率分布图 上述业界已有算法的三个指标,根本来源的特征只有一个,就是词频。...我们可以看到输出结果中,"上海"(上这一行、海这一列)、"虹桥"、"商务区"这三个词对应的像素点被识别了出来。...使用训练好的模型,输入携程地标库中的地标名称,可以自动切分和发现出一些新词,如下图,虽然有个别badcase,总体上准确率还可以。

    90220

    新词挖掘+预训练

    这是候选新词的结果 可以看到,效果还是不错的,能识别到"预训练"、"图神经"、"自然语言处理"、"深度学习"等新词,当然还有很多噪声数据,要「人工进行一些清洗过滤」(这是很正常的事,现在大部分的新词挖掘算法还是脱离不了人工清洗...因此,我们可以通过卡阀值,设定自由凝固度和邻字熵的下届,来得到一批候选新词。下图为算法挖掘到的部分新词。...可以看到过滤后,算法能识别出""自然语言处理"、"自然语言生成"等新词,效果还是十分不错的!...实验 这里拿新冠肺炎疫情期间网民情绪识别[6]比赛的数据作为实验,由于实验资源的问题,用的是哈工大讯飞实验室发布的三层RoBERTa[7]。...research_projects/mlm_wwm [5] Chinese-BERT-wwm: https://github.com/ymcui/Chinese-BERT-wwm [6] 新冠肺炎疫情期间网民情绪识别

    1.6K51

    首批科技新词发布试用 含“大数据”“云计算”

    全国科学技术名词审定委员会25日发布试用204条科技新词,其中包括“大数据”“云计算”“物联网”“三维打印”等42条热点名词以及“暗能量”“宏基因组”“碳交易”“量子通信”等162条专业新词。...这是全国科技名词委新词工作委员会集中审定公布的首批科学技术新词,旨在及时回应社会热点关注,对科技名词使用混乱的现象早发现、早规范。 此次发布试用的科技新词内容包括中文推荐名、英文推荐名和所属学科。...为便于公众进一步查询了解,全国科技名词委新词工作委员会组织专家对“热点名词”进行了简要解释。 首批科技新词的收集、审定工作历时一年半,前后有50多个学科的100多位专家参与了科技新词的推荐和审查。

    1.6K60

    java表格识别PaddleOcr总结

    简单总结下前面写了些借助opencv实现表格的一些方法,但是内容识别我是用的paddleocr(我只是切割后识别,但是paddleocr其实识别结果是自带坐标的也就是说直接有表格识别的能力,但是这东西吧不能通用有些遇到问题还是需要个性化处理下...如果是c++、python的话就可以直接开搞了,但是其他语言例如用java需要动态库,本篇简单说下dll代码吧(提前说下因为我碰到C++懵逼了,第一次我想到的是结果json序列化但是那个包引入有点麻烦我放弃了...,然后我想的是直接返回识别结果JNA传递又没搞定,最后不想折腾了直接拼接字符串)。...java里面声明也很简单,但是注意属性应该用public不然参数指定顺序会报错的。...网上应该是作者出了个onnx的版本,这个导出的模型没有默认长和宽这个需要注意下,另外模型转onnx后运算处理逻辑还是太复杂了(主要一些数学函数处理)java没有这方面的类库不好处理也试着用AI翻译下但还是放弃了

    11810

    Java + opencv 实现人脸识别,图片人脸识别、视频人脸识别、摄像头实时人脸识别

    重要: 把安装路径D:\Sofeware\opencv\build\bin下面的两个文件复制到 D:\Sofeware\opencv\build\java\x64 (为了支持读取视频流) 集成到IDEA...中 打开project structure –> modules –>dependencies 引入D:\Sofeware\opencv\build\java 下的opencv-411.jar包,然后编辑这个包加入...; /** * * @Title: Opencv 图片人脸识别、实时摄像头人脸识别、视频文件人脸识别 * @Description: OpenCV-4.1.1 测试文件 * @date: 2019年8...: no opencv_java411 in java.library.path(需要加一个运行参数) 编辑启动类:Edit Configuration VM options:-Djava.library.path...=D:\Sofeware\opencv\build\java\x64; 1- 测试摄像头实时识别人脸: 2- 测试本地视频识别人脸 3- 测试本地图片人脸识别 4- 测试本地2张图片人脸的相似度

    20.3K32

    java 图片识别 tess4j_JAVA使用Tess4J进行ocr识别

    Tess4J是对Tesseract OCR API.的Java JNA 封装。使java能够通过调用Tess4J的API来使用Tesseract OCR。...2、识别图片流 3、识别图片的某块区域 4、将识别结果保存为 TEXT/ HOCR/ PDF/ UNLV/ BOX 5、通过设置取词的等级,提取识别出来的文字 6、获得每一个识别区域的具体坐标范围 7...调整图片分辨率 10、从粘贴板获得图像 11、克隆一个图像(目的:创建一份一模一样的图片,与原图在操作修改上,不相 互影响) 12、图片转换为二进制、黑白图像、灰度图像 13、反转图片颜色 demo.java...result); } /** * Test of getSegmentedRegions method, of class Tesseract. * 得到每一个划分区域的具体坐标 * @throws java.lang.Exception...; logger.info(result); } /** * Test of createDocuments method, of class Tesseract. * 存储结果 * @throws java.lang.Exception

    3.2K10
    领券