我有一些关于建筑物的元数据,这里是一个例子:
AHU-S-6F-01.RA.CO2.1
我正在寻找一种方法,使计算机能够识别元数据中的实体,例如:
[Location].[Sensor-Type].[Sensor-Element].[Sensor-ID]
数据集中还有其他数据格式,所以我想我可以使用命名实体识别(NER),并通过Tensorflow.js实现它,使计算机学会识别元数据中的实体,并为它们提供标记。我在下面找到了一个例子:
https://monkeylearn.com/text-analysis/
命名实体识别(NER)是否适合用于检测元数据中的实体?如何通过Tensorflow.js实现?
如果没有,我应该用什么来解决这个问题?
谢谢!
发布于 2020-08-15 01:50:45
如果您的信息是完全可预测的(确定性),其中每个字段都是预期的,并且每个值都是预先定义的,那么我会使用regexp。
NLP/NER技术需要一些训练(数百到数千个训练示例),如果值随着时间的推移而改变,您必须使用新的示例进行重新训练。它可以处理出现歧义的情况(可能不是您的情况)。
发布于 2020-08-16 17:13:29
你需要检测哪些单词是产品特性,所以你应该使用BERT来匹配复杂的模式(但如果你的问题很简单,最好使用正则表达式)

此体系结构在类似的任务中实现,例如:
https://gab41.lab41.org/how-to-fine-tune-bert-for-named-entity-recognition-2257b5e5ce7e
https://towardsdatascience.com/named-entity-recognition-ner-with-bert-in-spark-nlp-874df20d1d77
https://stackoverflow.com/questions/63383246
复制相似问题