我记录了1,000条(例如)客户支持说明。
这些注释中的每一个(长度从25个字符到500个字符)都是由用户输入到系统中的(用户将拥有由他们创建的多个注释),我希望能够通过分析文本来生成一个相当于“语法KPI”的注释。
我不想对它们运行拼写检查,而是查看基本语法的一致性,如大写字母和标点符号(如果可能,请更正标点符号)。将每个音符的冗长包括到所说的'KPI‘的输出中也是一个有趣的转变。
在不沉迷于编程语言的情况下,什么是最有效的方式/方法,可以创建一个不是100%准确的表示,但足以在这些用户提交的笔记中看到语法的异常值?
我对这样的事情没有经验。
谢谢
发布于 2012-12-10 04:55:36
Python软件基金会主任的这篇演示文稿实际上是关于从正式文档(专利许可证)中提取语义:
本文描述了从书面文本中提取情感的技术:
https://stackoverflow.com/questions/9295435
复制相似问题