如何编写一个模式(Java)来匹配除给定单词列表之外的任何字符序列?
我需要找出一个给定的代码是否有任何由标签包围的文本,比如除了给定的单词列表之外。例如,我想检查标签中除了“一”和“二”之外是否还有其他单词。"This is the first tag <span>one</span> and thi
我需要从html文件中提取所有标签和单词(按时间顺序)。下面是文件的例子:我想在输出中看到的是一个数组或者列表,看起来像这样:{""," one "," two "," thre ",""}我知道有像jTidy或者Apache Tina这样的工具,但是这些工具只用于从文档中提取文本(或者只提取标签)。