腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
检测
标记
ngram
中
的
相同
单词
并
将其
删除
、
在dfm
中
,如何在
ngram
中
检测
相同
的
单词
,即 hello_hello, text_text 然后把它们从dfm里拿出来?
浏览 18
提问于2020-12-13
得票数 0
回答已采纳
1
回答
如何从文件
中
读取
ngram
,然后将它们与
标记
匹配
、
、
我想读取保存在文件
中
的
ngram
。然后将这些
ngram
中
的
每个
单词
与我
的
语料库
中
的
单个
标记
进行匹配,如果匹配,则
将其
替换为
ngram
.let,假设我有这些二元语法:worldly lifeLast Daysevere punishment
浏览 0
提问于2017-12-20
得票数 0
回答已采纳
1
回答
SOLR:对带空格
的
文本字段
的
模糊搜索
、
我
的
问题是:我有一个由SOLR索引
的
文本字段,它是我们数据库
中
的
用户名。我希望搜索是模糊
的
,而不是完全匹配
的
。对于我
的
配置,我尝试了WhiteSpaceTokenizerFactory和StandardTokenizerFactory。在搜索方面,我尝试引用和转义空格。他们都没有帮助解决我
的
space+fuzziness问题。我正在使用管理界面进行搜索。感谢你
的
指点。
浏览 0
提问于2018-06-14
得票数 0
回答已采纳
1
回答
ElasticSearch fieldNorm总是1
我还在将我们
的
材料从ES 1.3版迁移到2.4版(!)因此,在这个过程
中
,有些东西坏了,查询/等等过去不再起作用了(或者给出“坏”
的
结果)。我已经解决了其中
的
一些问题,但这是个大问题。我读过关于相关性评分是如何完成
的
。我
的
索引是用模式
标记
器处理
的
(只分成几个字),然后用小写过滤器和
ngram
过滤器(最小长度1,最大长度3)点击。现在,如果我搜索字母"a“,那么我应该先得到比较短
的
文件,对吗?例如,
浏览 2
提问于2016-09-30
得票数 3
回答已采纳
2
回答
面向特征工程
的
Ngram
阶数选择
、
、
我正在研究文本分类
的
特征工程。我被困在了选择功能
的
点上。大多数文献说,将文本
标记
化并
将其
用作特征(
删除
停用词、标点符号),但这样就会错过多个
单词
,如(肺癌)或短语。所以问题是,我如何决定
ngram
的
顺序,并将它们视为特征?
浏览 0
提问于2016-08-13
得票数 0
2
回答
如何将两个文本文档与tfidf向量器进行比较?
、
、
、
我有两个不同
的
文本,我想比较使用tfidf矢量化。我所做
的
是: 我做错了什么?请帮帮忙。 提前谢谢。
浏览 0
提问于2018-12-12
得票数 4
回答已采纳
2
回答
“短语”词在sklearn/nltk中被忽略
、
、
、
我有一个过程,就像: import refrom
浏览 0
提问于2018-02-27
得票数 2
回答已采纳
1
回答
最流行
的
子字符串
、
、
大多数“部分”只有2-3个
单词
长,并且在大约10k字符串中有大约100-500个完全
相同
的
部分出现。在一个字符串
中
,每种类型只能有一个部分(它们通常按顺序排列)。任何部分都没有有限
的
值集,将来可能会出现新
的
值。 问题是:如果我有足够
的
样本并且不想手动
标记
这些部分,我如何
检测
这些部分?它还会
检测
到某些文本是常见
的
,但如果我有一些特定
的
2个部分经常使用
相同
的<
浏览 9
提问于2010-10-14
得票数 2
回答已采纳
1
回答
自然语言处理
中
不平等文本部分
的
比较
、
我有两个文本,一个从DOCX文件
中
读取,另一个从TXT文件
中
读取。DOCX文件
的
布局如下所示: {地址}尽管您在我们
的
网站上申请,我们遗憾地通知您,您没有得到这份工作。{END]根据编号12345注册 杰
浏览 0
提问于2018-01-31
得票数 0
1
回答
使用边
ngram
索引时,考虑搜索上
的
空格。
、
\"$#&+'", "type" : "edge_
ngram
", }所以,为了解释我今天要做什么-我有
标记
器,它允许一些特殊字符,
并
打破了短语
的
空格。然而,我确实希望允许搜索更长
的
期限,包括两
浏览 1
提问于2022-07-11
得票数 0
1
回答
具有令牌上下文而不是
标记
上下文
的
Python NLTK
Ngram
标记
器
、
、
我一直在使用带有model关键字
的
NLTK Unigram
标记
器来传入特定
标记
的
单词
列表:...# '
浏览 0
提问于2014-11-04
得票数 1
1
回答
如何对多个文件使用Lingua::EN::
Ngram
、
我正在实现一个朴素
的
贝叶斯分类算法。在我
的
训练集中,我在不同
的
文件中有许多摘要。我想使用N-gram来获得词频权重,但代码不接受多个文件。我编辑了我
的
代码,现在我得到
的
错误是cant call method tscore on an undefined value。; use Text::
Ngram
; use Text::English; use Text::TFIDF= Lingua::EN
浏览 2
提问于2014-11-15
得票数 0
3
回答
创建一个带有'word group‘
的
字典
、
、
我想对工作描述做一些文本分析,
并
打算使用nltk。我可以建立一个字典
并
删除
停用
的
单词
,这是我想要
的
一部分。然而,除了单个
单词
及其频率之外,我还想保留有意义
的
“
单词
组”,
并
对它们进行计数。例如,在包含“机器学习”
的
工作描述
中
,我不想单独考虑“机器”和“学习”,但如果它经常出现在我
的
字典
中
,请保留该词组。做这件事最有效
的
方法是什么?
浏览 26
提问于2017-03-13
得票数 2
回答已采纳
2
回答
Solr分数不是按匹配百分比排序结果。
我使用solr搜索名称列表,
并
使用
ngram
说明部分字符串匹配。如果我有"Rose“、"Rosen”、"Rosenberg“和"Rosenthal”
的
名字,我希望"Rose“
的
查询会返回:RosenRosenthalRosenthalRosen 所有的结果都是一样
的
。我试着创建了一个精确
的
匹配字段和一个
ngram
字段,但这
浏览 5
提问于2016-10-13
得票数 1
回答已采纳
1
回答
如何使用CountVectorizer在不计算短语
中
单词
的
情况下获得该短语
的
计数?
、
、
、
我正在做一个NLP项目,我希望对句子进行
标记
化,
并
获得不同
标记
词
的
数量。有时,我希望几个
单词
成为一个短语,而不要把短语
中
的
单词
计算在内。我发现CountVectorizer在统计短语方面很有用,但我不知道如何
删除
短语
中
的
单词
。dog']vec
浏览 17
提问于2019-05-09
得票数 1
1
回答
优先排序某些字段
的
搜索结果
"filter": { "type": "edge_
ngram
country_name, type: "text", analyzer: "autocomplete", search_analyzer: "standard"上面的代码片段来自我为索引创建
的
represents&qu
浏览 3
提问于2019-10-17
得票数 1
回答已采纳
1
回答
基于TfidfVectorizer
的
n-图矢量化
、
我使用
的
TfidfVectorizer参数如下:我正在传达以下文字:“红色
的
太阳,粉红色
的
糖果。绿色
的
花。”这是get_feature_names():
的
输出 ['candy', 'candy green', 'coffee', '
浏览 3
提问于2018-08-31
得票数 3
回答已采纳
2
回答
Solr方面搜索-拼写检查
我在数据库
的
一列上使用Solr方面搜索。14</int> </lst> <lst name="facet_ranges"/>我想确保只有完整
的
单词
被计算在内在上面的例子
中
,你可以看到'science‘和'geniu’
的
浏览 1
提问于2013-05-10
得票数 0
1
回答
基于字典
的
ngram
、
我正在尝试提取由一些较小部分组合而成
的
单字、双字和三字符串。当它们是较大
的
部分时,有没有可能单独提取它们而不计算较小
的
部分?log entries" for
ngram
in ngrams: pattern = re.comp
浏览 0
提问于2018-11-20
得票数 1
3
回答
将具有多个拼写
的
单词
映射到关键字列表
的
最佳方法?
、
、
我有一堆
ngram
的
变量拼写,我想将每个
ngram
映射到已知期望输出列表
中
的
最佳匹配词。来自'desk‘、'Desk+Tab’、'Tab+Desk‘、'Desktop’、'dsk‘
的
每个输入都映射到'desktop’
的
所需输出 我有大约30个这样
的
“输出”
单词
,以及大约几百万个
ngram
(更少
的
唯一
的
)。我目前最好
浏览 0
提问于2019-02-02
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Chinese Word Vectors:目前最全的中文预训练词向量集合
目前最全的中文预训练词向量集合,NLP“pick”一下?
文本分类任务之逻辑回归
实例教程:如何用自然语言处理来预测垃圾邮件?
Python自然语言处理:使用SpaCycle库进行标记化、词干提取和词形还原
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券