朋友们,我正在寻找一个很好的算法,在一个大的文本中搜索给定的冗长短语。为了简单起见,我考虑了标记的文本和它中已经找到的所有单词。质量可以计算为每个单词到虚拟“短语中心”的距离之和。
"all cat are white“是两个质量为3.33的好短语。所有其他单词都可以与短语结合起来,但它们的质量会很低
假设您有一个返回字母序列x的质量的函数quality(x)。给定一个像"howareyoutoday“这样的字符串,确定分割结果是"how are you today”的最有效方法是什么(即quality(how)+quality(are)+quality(you)+quality(today)是可能的最高质量)?我在想,我们可以有这样的东西:Q[0] = qu