我正在构建一个NLP项目,用于比较两个不同数据帧之间的句子相似性。以下是数据帧的示例: df = pd.DataFrame({'Element Detail':['Too many competitors in market', 'Highly skilled employees']})
df1 = pd.DataFrame({'Element Details':['Our workers have a lot of talent',
我有个一般性的问题。我尝试在R中的数据帧之间进行字符串匹配,我的字符串的格式如下:
"COOL FOODS LTD 222 HIGH ST LONDON ABC123"
我想迭代其他数据帧,并希望我的代码在上面的字符串和下面的字符串之间找到匹配:
"222 HIGH ST LONDON ABC123 COOL FOODS LTD "
"HIGH LTD ST 222 LONDON COOL ABC123 FOODS "
"COOL FOODS LTD 222 HIGH ST LONDON UNITED KINGDOM ABC123&
我正在做一个NLP项目,在这个项目中,我必须比较许多句子之间的相似性,例如来自这个数据帧的句子:
这样做的问题是,对于大中型/大数据集,我很快就会耗尽内存,例如,对于10k行的连接,我将得到100 ram的行,这在ram中无法容纳。
我目前的方法是使用如下命令遍历数据帧:
final = pd.DataFrame()
### for each row
for i in range(len(df_sample)):
### select the corresponding vector to compare with
v = df_sample[d
哪些Microsoft认知服务(或Azure机器学习服务?)是最好的,也是最少的工作,用来解决查找给定文章的相似文章的问题。文章是一串文本。假设我没有关于文章的用户交互数据。
Microsoft Cognitive Services中有什么东西可以开箱即用地解决这个问题吗?似乎我不能使用推荐API,因为我没有交互/用户数据。
安东尼