检查文本是否包含词汇表中的任何单词？

、

如果给定一个可迭代的单词(数十万个)，是否有一个有效的现有库来检查可迭代中的任何单词是否包含在字符串中？我可以很容易地创建一个很长的正则表达式模式，或者将所有单词放在一起，然后尝试将该正则表达式与我的字符串进行匹配。我主要想知道是否有一些更干净的东西我可以使用，因为我不需要担心转义任何

浏览 3提问于2018-02-22得票数 0

1回答

伯特从哪里得到它预测的代币？

、、、

或者它会对所有可能的单词标记执行softmax吗？对于后者，不是只有大量的可能的令牌吗？我很难想象BERT把它当作一个分类问题，其中# classes =#所有可能的单词标记。伯特从哪里得到它预测的标记？

浏览 0提问于2020-11-16得票数 2

回答已采纳

1回答

扫描大型文本语料库，统计词汇表中的短语

、、

我需要扫描大约150万个文本文档的语料库，并将长度在1到4之间的任何一组单词与大约180万个短语的词汇表进行匹配。从每个文本文件中提取单词n-gram不是问题，而且速度很快；瓶颈在于对词汇表的检查。我的词汇表存储在一个MySQL表中，索引正确，我像这样查询每个短语： SELECT (1) FROM vocab WHERE phr

浏览 0提问于2013-03-28得票数 0

回答已采纳

2回答

Java -检查文本中是否包含任何单词

、

我试图实现一种检查文本中是否包含单词列表的方法。问题是我不能使用false方法，因为我只想检测到这个单词(如果这个单词是'car‘，那么在字符串’car‘中，该方法应该返回false)。

浏览 2提问于2022-06-29得票数 0

回答已采纳

1回答

神经网络的文本表示

、、

我正在用Matlab中的nntool开发一个神经训练网络，我有11250个不同长度的文本文件作为输入(从10到500个单词，或者如果我消除多余的单词，从10到200个单词)，我没有找到一个好的方法来将这些输入文本表示为数字数据来运行我的训练算法我想过创建一个单词词汇表，但我发现这个词汇表包含了16000个不同的

浏览 0提问于2016-05-04得票数 1

1回答

在对文本进行分类时检测单词中的错误并修复它们

、、、

你好，✌，我做了一个神经网络来分类文本。首先，我需要准备课文，我遇到了“单词中的错误”的问题。怎样才能找到和纠正它们呢？你有什么想法？提前感谢！

浏览 2提问于2020-03-13得票数 1

回答已采纳

1回答

如何添加已知的单词标记器keras python？

、、、、

但是keras标记器只检测到已知的单词。seq = list(tokenizer.texts_to_sequences_generator(txt))谢谢

浏览 0提问于2018-12-12得票数 2

回答已采纳

3回答

语音识别语言模型

、

我想将语音识别集成到我的Android应用程序中。然而，我的应用程序将有一个有限数量的可能单词(可能是几千个)。是否有可能指定词汇表；将其限制在这些单词中，以期获得更准确的结果？我的直接想法是使用网络搜索语言模型，然后根据我的词汇表

浏览 0提问于2010-10-14得票数 1

1回答

与古语/古英语单词结合使用spacy？

、、

我正在使用en_core_web_lg比较一些文本的相似性，我没有得到预期的结果。我的问题是，有什么办法可以查一下斯派西的“字典”吗？它是否包括“谁”、“分层”、“法令”或“真的”之类<em

浏览 9提问于2021-07-29得票数 1

2回答

访问iPhone内置词典或拼写检查器？

、

在游戏中，我有一个文本字段，用户可以在其中输入单词。现在我正在尝试找到一种方法来检查输入的单词是否真的是一个单词。你知道有没有一个访问内置字典的接口？除了建立我自己的词汇表之外，还有其他的想法吗？非常感谢您的帮助！

浏览 5提问于2011-08-07得票数 1

回答已采纳

1回答

如何在悬停时为网页上的单词添加弹出(工具提示)定义？

、、

我的250页网站有一个词汇表，里面有很多单词和它们的定义。我想找到一种方法，当词汇表中的单词出现在网站文本中时突出显示它们，并在悬停时显示单词的定义的“工具提示”气泡。我的网站页面都是html --我没有使用CMS。我想我需要使用javascript来实现这一点。我看了一遍又一遍，发现javascript函数可以突出显示某些文本</em

浏览 2提问于2012-04-05得票数 4

1回答

解析字符串，然后重新组合它

、、

我正在尝试将一个字符串解析成它的各个部分，检查每个部分是否存在于单独的词汇表中，然后只重新组合那些部分在词汇表中的字符串。词汇表是单词的向量，它是与我要比较的字符串分开创建的。最终目标是创建一个仅包含词汇表中单词部分的字符串的数据框架。我

浏览 0提问于2013-07-19得票数 1

回答已采纳

1回答

Google Cloud Speech API word提示

、、

你能给出在Google cloud speech API中使用word提示的例子吗？我尝试使用Rest API executor for brook.flac。我输入短语Brooklin (而不是Brooklyn)，但结果是相同的。它们能正常工作吗？

浏览 4提问于2017-03-25得票数 3

1回答

需要了解SubwordTextEncoder标记器背后的概念

、、、、

我目前正在使用转换器模型来完成我的NLP任务。我正在研究来自Tensorflow.org的转换器模型。为了验证我对其实现的理解，我创建了自己的</e

浏览 3提问于2021-01-08得票数 0

4回答

供下载的词典单词

、

谁能提供一个建议，在哪里可以找到带有频率信息的字典词表？理想情况下，源应该是北美变体的英语单词。

浏览 6提问于2010-11-21得票数 6

回答已采纳

2回答

将word2vec融入具有数据帧结构的训练集中

、、

我是NLP的乞丐，我有一些关于分类任务的问题。我在数据帧结构中有一个数据集，其中包含两列，第一列是文本(所以字符串)，第二列在每个测试的标签中。

浏览 3提问于2021-06-01得票数 0

回答已采纳

1回答

当我尝试运行下面的代码时，我得到了keyerror： KeyError: word fransız not in vocabulary. 问题出在哪里？ import numpy as npfrom nltk.tokenize import sent_tokenize,word_tokenizetext="Victor Marie Hugo, Romantik akıma bağlı Fransız şair, romancı ve oyun yazarı. En büyük ve

浏览 36提问于2020-04-24得票数 0

4回答

如何使用word2vec识别看不见的单词并将它们与已经培训过的数据相关联

、、、

我很高兴找到一个未知/看不见的词，当与模型检查时，将能够从培训过的模型中得到类似的术语。这个是可能的吗？可以为此对word2vec进行调整吗？或者训练语料库需要有我想要找到相似之处的所有单词。

浏览 0提问于2015-12-26得票数 14

7回答

在字典中检查单词

、、

我需要确定一个未知的5或6个字母的字符串是否是一个有效的单词，即是否在字典中。我可以将字符串/单词提交到在线词典，但我需要检查这个字符串/单词大约100到150次，每次检查次数都不同。我的下一个想法是尝试做一个我自己的字典程序。它需要在Java中，因为我的程序是用Java编写的。Java A

浏览 0提问于2010-01-09得票数 4

2回答

XQuery，是否检查元素为空？

如何检查节点中是否没有文本？我可以使用string($node)="“，因为节点可以是这样的我的意思是，它可以包含空格，但不能包含文本？

浏览 4提问于2012-11-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

伯特从哪里得到它预测的代币？

扫描大型文本语料库，统计词汇表中的短语

Java -检查文本中是否包含任何单词

神经网络的文本表示

在对文本进行分类时检测单词中的错误并修复它们

如何添加已知的单词标记器keras python？

语音识别语言模型

与古语/古英语单词结合使用spacy？

访问iPhone内置词典或拼写检查器？

如何在悬停时为网页上的单词添加弹出(工具提示)定义？

解析字符串，然后重新组合它

Google Cloud Speech API word提示

需要了解SubwordTextEncoder标记器背后的概念

供下载的词典单词

将word2vec融入具有数据帧结构的训练集中

KeyError: wordız不在词汇表中

如何使用word2vec识别看不见的单词并将它们与已经培训过的数据相关联

在字典中检查单词

XQuery，是否检查元素为空？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐