许多自然语言处理( Natural Language Processing,NLP)算法和库都很难处理来自web的随机文本,这通常是因为它们的前提是干净、清晰的写作。我可以理解为什么这比解析YouTube注释更容易。
我的问题是:给定一段随机的文本,是否有一个过程来确定该文本是否写得很好,是否适合在NLP中使用?这些算法的通用名称是什么?我会感谢链接到文章,算法或代码库,但我会满足于好的</
我有下面两个字符串,实际上意思是一样的: GLOVES: LENGTH: 32 CM MATERIAL: NEOPRENE RUBBER FREE FLOW TEXT: RESISTANT TO WIDEMake: Polyco, Model: Duraprene III or Equivalent 我有1000多套这样的套装,手动做起来很恐慌,我试着这样做: package main
} 但是匹配率很低,我得到了: str1 is: 197 length,