ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。
ChemDataExtractor官网
ChemDataExtractor使用最先进的自然语言处理算法来解释构成大多数科学文档的英语语言文本。诸如条件随机字段的机器学习方法与自定义词典和基于规则的解析语法结合使用以从每个句子中提取有价值的信息。
通过整体处理每个文档,ChemDataExtractor能够解析数据相互依赖性,例如确定不同的名称和标识符何时引用相同的化合物。因此,它生成一个完整的化合物记录,其中包含文档中每个唯一化学实体的标识符、属性和光谱。
大量重要数据被锁定在文档表中。ChemDataExtractor提供专门的解析器,从表中提取数据并将其与文档其余部分的信息集成。
ChemDataExtractor可作为开源python包提供,您可以免费下载和使用。
通过conda或者pip安装ChemDataExtractor
python
from chemdataextractor import Document
doc = Document('UV-vis spectrum of 5,10,15,20-Tetra(4-carboxyphenyl)porphyrin in Tetrahydrofuran (THF).')