我有一个有一排排句子的Dataframe。现在,我想从Dataframe中删除所有包含字典/列表中>= x (e.g. 2 or 3)字数的句子,这些词可以看上去如下:dict = {"ice", "water", "rain"}
例如,如果x=2,我想删除句子ice and water are similar to each other,因为它有字典中的两个
我正在尝试找出两个句子之间的一些相似性度量。为此,我利用了两个单词各自的语义相似性。但是字典里有很多单词是我从我的句子里造出来的。我想从句子中去掉一些我认为不能传达内容信息的单词。首先,我删除了字母较少的单词,但我不认为这是合理的,因为它还删除了一些信息丰富的单词。"Despite the fact that ..."如果我有一个涉及这
我试图从语料库中删除较长(>25个标记)和较短(<4个标记)的句子,并删除包含出现次数少于8次的罕见单词的句子。我试图删除它,但每次尝试都会收到错误消息或空列表。语料库是棕色语料库。lens = [w for w in corpus.sents() if len(w)>=25 and len(w)<= 4]out: []
我也不知道如何在这份清单中加入稀有单词<