首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >从单词列表中提取更多相似单词

从单词列表中提取更多相似单词
EN

Stack Overflow用户
提问于 2015-06-17 10:10:40
回答 1查看 414关注 0票数 3

所以我有一个描述特定群体的单词列表。例如,有一组是基于宠物的。

示例宠物组的单词如下所示:

[pets, pet, kitten, cat, cats, kitten, puppies, puppy, dog, dogs, dog walking, begging, catnip, lol, catshit, thug life, poop, lead, leads, bones, garden, mouse, bird, hamster, hamsters, rabbits, rabbit, german shepherd, moggie, mongrel, tomcat, lolcatz, bitch, icanhazcheeseburger, bichon frise, toy dog, poodle, terrier, russell, collie, lab, labrador, persian, siamese, rescue, Celia Hammond, RSPCA, battersea dogs home, rescue home, battersea cats home, animal rescue, vets, vet, supervet, Steve Irwin, pugs, collar, worming, fleas, ginger, maine coon, smelly cat, cat people, dog person, Calvin and Hobbes, Calvin & Hobbes, cat litter, catflap, cat flap, scratching post, chew toy, squeaky toy, pets at home, cruft's, crufts, corgi, best in show, animals, Manchester dogs' home, manchester dogs home, cocker spaniel, labradoodle, spaniel, sheepdog, Himalayan, chinchilla, tabby, bobcat, ragdoll, short hair, long hair, tabby cat, calico, tabbies, looking for a good home, neutring, missing, spayed, neutered, declawing, deworming, declawed, pet insurance, pet plan, guinea pig, guinea pigs, ferret, hedgehogs, minipigs, mastiff, leonburger, great dane, four-legged friend, walkies, goldfish, terrapin, whiskas, mr dog, sheba, iams]

现在,我计划使用NLTK来丰富这个列表。

因此,首先我可以获得每个单词的同义词集。如果我们以cats为例,我们得到:

代码语言:javascript
运行
AI代码解释
复制
Synset('cat.n.01')
Synset('guy.n.01')
Synset('cat.n.03')
Synset('kat.n.01')
Synset('cat-o'-nine-tails.n.01')
Synset('caterpillar.n.02')
Synset('big_cat.n.01')
Synset('computerized_tomography.n.01')
Synset('cat.v.01')
Synset('vomit.v.01')

为此,我们使用nltk's wordnetfrom nltk.corpus import wordnet as wn

然后,我们可以获得每个同义词集的引理。通过简单地添加这些引理,我反过来增加了相当多的噪音,无论如何,我也添加了一些有趣的单词。

但我想要看的是降噪,并感谢任何建议或替代方法以上。

其中一个想法是,我正在尝试查看单词“cat”是否出现在同义词集名称或定义中,以包括或排除这些词条。

EN

回答 1

Stack Overflow用户

发布于 2015-06-19 13:35:15

我建议在这里将语义相似度与kNN的变体一起使用:对于每个候选词,计算与所有金本位词的成对语义相似度,然后仅保留k(尝试不同的k,从5到100)最相似的金本位词,计算与这k个词的相似度的平均值(或总和),然后使用此值来丢弃噪声候选-通过仅排序和保持n最佳,或通过实验定义的阈值截断。

语义相似度可以基于WordNet计算,参见related question,或者基于word2vec或类似技术学习的向量模型,再次参见related question

实际上,你可以尝试将这项技术与所有单词作为候选单词,或者所有/部分单词出现在特定领域的文本中-在最后一种情况下,任务称为自动术语识别,方法可以直接用于您的问题或作为候选单词的来源;在谷歌学者上搜索它们;作为现有方法的简短描述和调查链接的示例,请参阅this paper

Fedorenko,D.,Astrakhantsev,N.,& Turdakov,D. (2013)。领域特定术语的自动识别:一项实验评估。在SYRCoDIS (第15-23页)。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30888536

复制
相关文章
1452: [蓝桥杯2019初赛]平方和
小明对数位中含有2、0、1、9 的数字很感兴趣,在1 到40 中这样的数包括1、2、9、10 至32、39 和40,共28 个,他们的和是574,平方和是14362。注意,平方和是指将每个数分别平方后求和。请问,在1 到2019 中,所有这样的数的平方和是多少?
可爱见见
2020/02/26
9210
平方和公式
平方和公式是一个比较常用公式,用于求连续自然数的平方和(Sum of squares),其和又可称为四角锥数,或金字塔数(square pyramidal number)也就是正方形数的级数。
云深无际
2020/08/11
1.2K0
四平方和
本文最后更新于 1163 天前,其中的信息可能已经有所发展或是发生改变。 #include<iostream> #include<cstring> #include<cmath> using namespace std; int arr[4]; int arr_final[4]; int dg(int n,int step){ //cout<<"n:"<<n<<" step:"<<step<<endl; if(step>3){ return 0; } int sq=sqrt(n); //cou
Yuyy
2022/06/28
2170
4. leetcode 数组平方和的排
1. 题目 Given an array of integers A sorted in non-decreasing order, return an array of the squares of each number, also in sorted non-decreasing order. 示例一:
py3study
2020/01/02
3540
偶数的平方和,奇数的立方和
package com.test; import java.util.*; import java.io.*; public class Main { public static void main(String[] args) { Scanner sc = new Scanner(System.in); int r1, r2, result_even, result_odd; while (sc.hasNextInt()) {
MickyInvQ
2020/09/27
7730
偶数的平方和,奇数的立方和
试题 算法训练 求平方和
  测试数据的输入一定会满足的格式。   2 2(2行2列,第1行整型,第2行浮点型)
SingYi
2022/07/13
3480
R语言逻辑回归、方差分析 、伪R平方分析
Logistic回归可以使用glm  (广义线性模型)函数在R中执行  。该函数使用链接函数来确定要使用哪种模型,例如逻辑模型,概率模型或泊松模型。
拓端
2020/08/22
3.1K0
R包:ggalign调整和组合多个图形的R包
这个包扩展了ggplot2,提供了用于对齐和组织多个图的高级工具,特别是那些自动重新排序观察结果的工具,比如树形图。它提供了对布局调整和情节注释的精细控制,使您能够创建复杂的、出版质量的可视化,同时仍然使用熟悉的ggplot2语法。
生信学习者
2025/02/25
1080
R包:ggalign调整和组合多个图形的R包
HDOJ 2007 平方和与立方和
Problem Description 给定一段连续的整数,求出他们中所有偶数的平方和以及所有奇数的立方和。
谙忆
2021/01/19
2930
hdu 4507 数位dp(求和,求平方和)[通俗易懂]
大家好,又见面了,我是全栈君。 http://acm.hdu.edu.cn/showproblem.php?pid=4507 Problem Description   单身!
全栈程序员站长
2022/07/07
3330
LeetCode 2333. 最小差值平方和(贪心)
数组 nums1 和 nums2 的 差值平方和 定义为所有满足 0 <= i < n 的 (nums1[i] - nums2[i])^2 之和。
Michael阿明
2022/07/31
3560
云迁移的6“R”是什么
1. Re-Hosting 重新托管(有时也被称为“直接迁移”),是指企业尽可能少地更改应用,直接将应用迁移到云技术供应商的数据中心。“直接迁移”应用可以继续为企业员工或客户提供与迁移前相同的功能 — 理想情况下员工和客户甚至不知道发生了应用迁移。
腾讯云产品经理_Keyi
2024/11/20
2350
云迁移的6“R”是什么
R tips:unique和duplicated的区别
数据处理的过程中,数据清洗的时候就需要做一些去重处理,否则在后续的数据变换和分析时有太多的地方会报错。
生信菜鸟团
2020/05/04
1.3K0
R语言动量交易策略分析调整后的数据
用于动量策略中所谓的动量(Momentum),是指某一对象所具有的一种倾向于保持其原有属性或特征的性质,也可以简单理解成一种惰性(Inertia)。股票的动量,简单地说就是涨的还会接着涨,跌的还会接着跌;过去涨得越猛,未来涨的也就越猛;过去跌得越狠,未来也会跌的越狠。
拓端
2020/12/30
6860
R语言动量交易策略分析调整后的数据
R」R 的函数
函数,其实就是一个黑箱子,一个封闭的计算结构体,对于用户来说,只需要关注输入和输出。函数在所有的编程语言中都有实现,主要的目的是方便进行模块化编程,代码维护等。
王诗翔呀
2020/07/03
1.3K0
51Nod 1080 两个数的平方和(数论,经典题)
1080 两个数的平方和 基准时间限制:1 秒 空间限制:131072 KB 分值: 5         难度:1级算法题 给出一个整数N,将N表示为2个整数i j的平方和(i <= j),如果有多种表示,按照i的递增序输出。 例如:N = 130,130 = 3^2 + 11^2 = 7^2 + 9^2 (注:3 11同11 3算1种) Input 一个数N(1 <= N <= 10^9) Output 共K行:每行2个数,i j,表示N = i^2 + j^2(0 <= i <= j)。 如果无法分解
Angel_Kitty
2018/04/08
9430
AcWing 1221. 四平方和 (哈希 or 二分 )
这题其实很毒瘤了,因为正常中途相遇法 n方枚举然后哈希一下其实理论上可以过就是因为时间复杂度太高了, 后面还是写了二分才过,好迷啊
glm233
2021/03/23
3490
AcWing 1221. 四平方和 (哈希 or 二分 )
解决拉格朗日四平方和定理
“拉格朗日四平方数和定理”是数学中著名的一个定理,其内容为:任意一个正整数均可表示为四个整数的平方和(其中有些整数可以为零)。要求输入一个数,找出所有符合该定理的四个整数?
算法与编程之美
2024/04/18
1100
解决拉格朗日四平方和定理
R平方/相关性取决于预测变量的方差
在我今天参与的一个讨论中,提出了一个问题,即在具有单个连续预测器的线性回归模型中R平方如何/是否取决于预测变量的方差。这个问题的答案当然是肯定的。
拓端
2020/07/17
6030
R平方/相关性取决于预测变量的方差
\r和\n不同系统的区别
在最初的电传打印机时代,每打完一行需要换行的时候,耗费的时间正好是打印两个字符的时间。那么如果这段时间内正好传来两个字符,就会打印不出来。所以当时就在一行的最后增加了两个字符,一个叫做"回车",告诉打字机把打印头定位在左边界;另一个叫做"换行",告诉打字机把纸向下移一行。
冬天vs不冷
2025/01/21
1340
\r和\n不同系统的区别

相似问题

UWP -给按钮一个随机位置

12

Android如何随机交换按钮位置?

21

如何将值赋给数组中的随机位置?

115

Android -按钮随机位置的奇怪行为

10

拖拽后保存数组中每个按钮的位置

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文