开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

无监督命名实体识别(NER),带有用于Java中交联建议的自定义控制词汇表

无监督命名实体识别(NER)是一种自然语言处理技术，用于识别文本数据中的实体，如人名、地名、组织名等。这种技术通常不依赖于标注数据，而是通过机器学习算法自动识别文本中的实体。

在Java中，可以使用Stanford NER库来识别实体。该库提供了一个自定义控制词汇表，你可以通过添加自定义的词汇表来扩展实体识别的范围。

例如，你可以使用以下代码来识别实体：

import edu.stanford.nlp.ie.NERClassifier;
import edu.stanford.nlp.ie.NERNameFinder;
import edu.stanford.nlp.ling.CoreAnnotations;
import edu.stanford.nlp.ling.CoreLabel;
import edu.stanford.nlp.pipeline.Annotation;
import edu.stanford.nlp.pipeline.StanfordCoreNLP;
import edu.stanford.nlp.util.CoreMap;

import java.util.List;

public class NERExample {
    public static void main(String[] args) {
        String text = "John Smith is a software engineer. He works for Google.";
        List<CoreMap> sentences = ner.nameFinder.find(text);
        for (CoreMap sentence : sentences) {
            for (CoreLabel token : sentence.get(CoreAnnotations.TokensAnnotation.class)) {
                String word = token.get(CoreAnnotations.TextAnnotation.class);
                String classifiedWord = token.get(new edu.stanford.nlp.ie.NERClassifier.ClassLabel(word));
                System.out.println("Word: " + word + " - classifiedWord: " + classifiedWord);
            }
        }
    }
}

这个例子中，我们使用了Stanford NER库来识别文本中的实体。我们首先创建了一个StanfordCoreNLP对象，然后使用ner.nameFinder.find(text)来获取实体。在这个例子中，我们使用了默认的NER分类器，但也可以自定义分类器。

总之，无监督命名实体识别(NER)是一种非常有用的自然语言处理技术，可以自动识别文本数据中的实体。在Java中，可以使用Stanford NER库来实现这一技术，并可以根据需要自定义分类器。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

独家 | 采用BERT的无监督NER（附代码）

作者：Ajit Rajasekharan 翻译：陈之炎校对：王雨桐本文约8700字，建议阅读10+分钟。本文介绍了一种无监督命名实体识别（NER）的方法。 ? 图1....TL;DR 在自然语言处理中，为了在句子中识别出感兴趣的实体(NER)，如人物、地点、组织等，我们需要对句子进行标记。...随后用这些标记好的句子训练模型以用于识别实体，这可以看作一个监督学习任务。本文描述了一种无监督NER的方法。...利用这种方法，可以实现在细粒度级别上对大量实体类型进行无监督识别，而无须对数据进行标记。...带有MLM head的BERT模型输出经过转换之后，可用于对屏蔽词进行预测。这些预测结果也有一个易于区分的尾部，这一尾部可用于为术语选择语境敏感标识。执行无监督NER的步骤 1.

2.2K2 0

斯坦福NLP课程 | 第13讲 - 基于上下文的表征与NLP预训练模型(ELMo, transformer)

2017) 如果测试时的单词不在你的词汇表中，但是出现在你使用的无监督词嵌入中，测试时直接使用这个向量此外，你可以将其视为新的单词，并为其分配一个随机向量，将它们添加到你的词汇表...得到的 hidden states 与 Pre-trained bi-LM (冻结的) 的 hidden states 连接起来输入到第二层的 bi-LSTM 中 1.8 命名实体识别 (NER) [...命名实体识别 (NER) ] 一个非常重要的NLP子任务：查找和分类文本中的实体 1.9 CoNLL 2003命名实体识别 (en news testb) [CoNLL 2003命名实体识别 (en news...像 TagLM 一样连接到中间层是典型的可以在生产输出时提供更多的表示，例如在问答系统中 2.2 ELMo在序列标记器中的使用 [ELMo在序列标记器中的使用] 2.3 CoNLL 2003命名实体识别...(en news testb) [CoNLL 2003命名实体识别 (en news testb) ] 2.4 ELMo结果：适用于所有任务 [ELMo结果：适用于所有任务] 2.5 ELMo ：层权重

8645 1

OCR 【技术白皮书】第一章：OCR智能文字识别新发展——深度学习的文本信息抽取

---------------------------------- 1.1.1基于深度学习的实体抽取实体抽取即命名实体识别（Named Entity Recognition，简称NER），是指识别文本中具有特定意义的实体...中文命名实体识别的难点主要存在于：中文文本没有类似英文文本中空格之类的显式标示词的边界标示符，命名实体识别的第一步就是确定词的边界，即分词。中文分词和命名实体识别互相影响。...除了英语中定义的实体，外国人名译名和地名译名是存在于汉语中的两类特殊实体类型。现代中文文本，尤其是网络中文文本，常出现中英文交替使用，这时汉语命名实体识别的任务还包括识别其中的英文命名实体。...关系抽取将文本中的无结构化的信息转化为结构化的信息存储在知识库中,为之后的智能检索和语义分析提供了一定的支持和帮助。...此外,由于互联网的快速发展,网络文本中的文字描述更加个性化,许多词语具有不同意义,中文命名实体在不同语境下被赋予了不同的意义(如高富帅、黑天鹅等),使得关系类型的识别更为困难。

1.2K4 0

BIB | 深度学习生物医学命名实体识别综述

它的目的是从大量的非结构化医学文本中找出基因、疾病、蛋白质等相应的医学实体边界，然后再经过标准化映射到受控词汇表中，从而方便进行文献挖掘的下游任务。...在这篇文章中我们按照模型使用的数量和结合方式，从基于单一神经网络、基于多任务、基于迁移学习和基于混合模型的方法这4个方面对现有的生物医学实体命名识别进行了综述。...旨在帮助不同的研究者，从多个方面系统地了解生物医学命名实体识别。此外我们还总结了生物医学命名实体识别常用的数据集和其来源，方便研究者快速地获取所需要的数据集。...深度学习的方法是将文本转换成embedding信息，然后从这些信息中提取有用的特征用于生物医学实体识别。...在混合模型中，通常使用传统的方法预先处理部分数据，然后神经网络模型从预先处理的这部分数据中学习相应的特征。这种方法能预先处理大量的低质量数据，因此被经常用在弱监督或无监督的学习中。

8225 0

【技术白皮书】第三章：文字表格信息抽取模型介绍——实体抽取方法：NER模型（上）

《Character-level neural network for biomedical named entity recognition》研究了单词嵌入和字符级表示在识别生物医学命名实体中的作用。...他们提出了另一种离线训练的词汇表示法，可以添加到任何神经系统中。词汇表示是用120维向量计算每个单词的，其中每个元素用实体类型编码单词的相似性。...《Nested named entity recognition revisited》提出了对标准的基于LSTM的序列标记模型的修改，以处理嵌套命名实体识别。...他们的模型从文本和国际象棋棋盘（9×9方块，40块14种不同类型的棋子）中获取输入，并预测该游戏特定的21个命名实体。...CRF已广泛应用于基于特征的监督学习方法。许多基于深度学习的NER模型使用CRF层作为标签解码器，例如，在双向LSTM层和CNN层之上。

1.2K2 0

命名实体识别的深度学习综述

NER技术的四个类别：1.基于规则的方法2.无监督学习3.基于特征的有监督方法4.基于深度学习的自动获得representation的方法本文的动机 1.深度学习的蓬勃发展。...其中分别表示命名实体的开始位置和结束位置，t表示命名实体的类别。...Then ACE提出更复杂的评估方法，但不常用。 2.4 Traditional Approaches to NER 传统的NER方法主要分为：基于规则的方法和无监督学习，基于特征的有监督学习。...2.4.2 无监督学习一个常用的无监督方法是聚类。关键的想法是通过词汇资源，词汇模式和大语料库中计算的概率来推断实体类型。介绍一些聚类方法介绍一些无监督的系统。...2.4.3 有监督学习特征被设计用来表示每一个学习用例。机器学习被用于训练一个分类模型。介绍一些特征工程方法。基于这些特征许多机器学习算法被用于NER中。

1.8K3 0

EMNLP2022 & 天津大学 | 基于Bert的无监督边界感知模型BABERT「中文序列标注」

边界信息是各种中文自然语言处理任务的关键，如分词、词性标注和命名实体识别。之前的研究往往使用高质量的外部词典提供显式的边界信息。然而为保证词典的质量，往往需要大量的人力。...为此，在本文使用无监督的统计边界信息，并提出一种将信息直接编码到预训练语言模型中的架构，从而产生边界感知BERT(BABERT)，并将BABERT应用于中文序列标注任务的特征归纳。...祝大家周末愉快~ 背景介绍具有代表性的汉语序列标注任务主要有：分词、词性标注和命名实体识别(NER)，它们比较倾向于以端到端方式进行字符级别的标注。...一个经过充分研究的分词词典可能不适合NER，而新闻NER的词典可能也不适合财经NER。这两个缺点主要是由于基于词典的增强具有监督特性，因此，本文采用以无监督的方式提供边界信息。...进一步计算了两个无监督指标（PMI、LRE），可以捕获语料库中的大部分边界信息。

7142 0

命名实体识别 – Named-entity recognition | NER

什么是命名实体识别？命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。...简单的讲，就是识别自然文本中的实体指称的边界和类别。...半监督的学习方法：这一类方法利用标注的小数据集（种子数据）自举学习。无监督的学习方法：这一类方法利用词汇资源（如WordNet）等进行上下文聚类。...位置、组织、人… 这是来自GMB语料库的摘录，用于训练分类器以预测命名实体，例如姓名，位置等。...官网 | GitHub 地址 MALLET 麻省大学开发的一个统计自然语言处理的开源包，其序列标注工具的应用中能够实现命名实体识别。

2.6K0 0

入门 NLP 前，你必须掌握哪些基础知识？

命名实体识别在大多数应用中，并不需要执行以上所有的预处理步骤。是否需要进行命名实体识别取决于应用的具体业务需求，而词性标注工作则通常由现代工具自动完成，从而改进归一化和分词步骤的某些部分。...命名实体识别在识别命名实体之前，必须对词（token）进行组块分析（chunk）。组块分析意味着对一组词进行分割和标记。...命名实体是指示特定物体（例如，人、祖师、地点、日期、地缘政治实体）的名词短语。命名实体识别（NER）的目标是识别文本中提到的命名实体。 ?...带有 NER 标签的句子机器学习正如 Brink 等人定义的那样，机器学习（ML）就是利用历史数据中的模式来对新的数据做出决策[1]，或者就像谷歌首席决策科学家 Cassie Kozyrkov...在监督学习中，我们拥有带有「垃圾邮件/非垃圾邮件」标签的训练数据；而在非监督学习中，我们则须要基于（无标签的）电子邮件的训练集检测异常邮件。 ?

1.8K1 0

今日 Paper | 3D门控递归融合；双注意力GAN；通用目标检测器；无监督域自适应等

目录用于语义场景完成的3D门控递归融合用于大姿态人脸正面化的双注意力GAN Universal-RCNN：基于可转移图R-CNN的通用目标检测器用于图像深度估计的无监督域自适应嵌套命名实体识别的神经分层模型...用于图像深度估计的无监督域自适应论文名称：Unsupervised Domain Adaptation for Depth Prediction from Images 作者：Tonioni Alessio...作者还将控制用来计算损失的像素值的超参数设置成一个可学习的变量，进一步提升了模型的泛化能力。论文被TPAMI接收，为无监督深度估计算法提供了新的解决思路。 ? ? ?...本文解决了大多数命名实体识别系统不能有效处理内部嵌套实体的问题，如在生物医药领域，嵌套实体出现非常频繁，使用本文提出的方法可以在此背景下捕获更细粒度的语义信息。 2....本文所提出的模型针对自然语言处理中命名实体识别问题，能够改善嵌套实体识别的情况，而实体识别是之后如实体对齐，构建知识图谱等问题的基础，因而意义很大。 ?

9144 1

探索无监督域自适应，释放语言模型的力量：基于检索增强的情境学习实现知识迁移

同时在无监督域自适应任务中，如何充分利用情境学习的优势进行知识迁移仍然是一个开放性问题。...模型评估：在目标域的测试数据上评估模型性能。通过比较不同方法在命名实体识别（NER）和情感分析（SA）等任务上的结果，验证DAICL框架的有效性。...对于任务学习目标，在源输入上使用平均汇聚（average pooling）作为情感分析任务的预测机制，而在语言模型特征之上使用附加的条件随机场（CRF）层进行命名实体识别任务的标记级别分类。...DAICL方法的有效性，该研究在命名实体识别（NER）和情感分析（SA）任务上进行了广泛的实验。...该框架通过检索目标域的相似示例作为上下文，结合任务损失和领域适应损失进行情境学习，以实现知识迁移。实验采用了多个源域和目标域的数据集，包括命名实体识别（NER）和情感分析（SA）任务。

6281 0

入门 NLP 项目前，你必须掌握哪些理论知识？

命名实体识别在大多数应用中，并不需要执行以上所有的预处理步骤。是否需要进行命名实体识别取决于应用的具体业务需求，而词性标注工作则通常由现代工具自动完成，从而改进归一化和分词步骤的某些部分。...命名实体识别在识别命名实体之前，必须对词（token）进行组块分析（chunk）。组块分析意味着对一组词进行分割和标记。...命名实体是指示特定物体（例如，人、祖师、地点、日期、地缘政治实体）的名词短语。命名实体识别（NER）的目标是识别文本中提到的命名实体。...带有 NER 标签的句子机器学习正如 Brink 等人定义的那样，机器学习（ML）就是利用历史数据中的模式来对新的数据做出决策[1]，或者就像谷歌首席决策科学家 Cassie Kozyrkov...在监督学习中，我们拥有带有「垃圾邮件/非垃圾邮件」标签的训练数据；而在非监督学习中，我们则须要基于（无标签的）电子邮件的训练集检测异常邮件。

6102 0

【NLP基础】信息抽取(Information Extraction:NER(命名实体识别),关系抽取)

此信息提取过程(IE)将嵌入文本中的非结构化信息转换为结构化数据，例如用于填充关系数据库以支持进一步处理。命名实体识别(NER)的任务是找到文本中提到的每个命名实体，并标记其类型。...命名实体识别(NER) 信息提取的第一步是检测文本中的实体。一个命名实体，粗略地说，是任何可以用一个专有名称引用的东西:一个人、一个位置、一个组织。...文本包含13个提到的命名实体，包括5个组织、4个地点、2次、1个人和1个提到钱的实体。除了用于提取事件和参与者之间的关系之外，命名实体对于许多其他语言处理任务也很有用。...NER的逐词特性编码。 ? 名实体识别作为序列标记。分类器在训练和分类时可用的特征是在框区域内的特征。一种用于NER的神经算法 NER的标准神经算法是基于bi-LSTM。...学术界基本上以纯统计序列模型为主，但工业界上处理命名体识别的方法还是会更加实际一点，监督学习加上一些规则，最为常用的方法就是通过序列，将上一个序列的结果作为输入到下一个序列中。

11.4K3 2

聊聊自然语言处理NLP

一些NLP任务，如词性标注和实体提取，是针对单个句子的。对话式的应用程序还需要识别单独的句子。为了使这些过程正确工作，必须正确地确定句子边界。...常用的框架及算法： n-gram 词嵌入 Glove word2Vec 降维主成分分析 t-SNE 命名实体识别识别人和事物的过程称为命名实体识别（NER）。...实体（诸如人物和地点等）与具有名称的类别相关联，而这些名称识别了它们是什么。 NER过程涉及两个任务：实体检测实体分类检测是指在文本中找到实体的位置。...文本分类用于多种目的：垃圾邮件检测、著作权归属、情感分析、年龄和性别识别、确定文档的主题、语言识别等。...可分为如下几种：手工方式监督方法半监督方法或无监督方法引导方法远程监督方法无监督的方法参考《Java自然语言处理（原书第2版）》

2813 0

Python自然语言处理工具小结

其次我们要准备各个命名实体类别所对应的词库，词库被存在文本文档中，文档名即是命名实体类别的TypeName，下面两个function分别是载入某类命名实体词库中的词和载入命名实体的类别。...简单的示例程序：Stanford POS Tagger : 采用Java编写的面向英文、中文、法语、阿拉伯语、德语的命名实体识别工具。...最后的Eclipse中结构如下： Chinese NER：这段说明，很清晰，需要将中文分词的结果作为NER的输入，然后才能识别出NER来。...可以支持用户自定义的词典，通过配置IKAnalyzer.cfg.xml文件来实现，可以配置自定义的扩展词典和停用词典。词典需要采用UTF-8无BOM格式编码，并且每个词语占一行。...models文件夹中存放的模型文件，主要用于分词、词性标注和命名实体识别以及分词所需的词典；文件夹example中主要是使用的示例代码，可以帮助快速入门和使用；java-docs是API帮助文档；src

1.3K7 0

初学者|一文读懂命名实体识别

命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。...简单的讲，就是识别自然文本中的实体指称的边界和类别。...宗成庆老师在统计自然语言处理一书粗略的将这些基于机器学习的命名实体识别方法划分为以下几类：有监督的学习方法：这一类方法需要利用大规模的已标注语料对模型进行参数训练。...半监督的学习方法：这一类方法利用标注的小数据集（种子数据）自举学习。无监督的学习方法：这一类方法利用词汇资源（如WordNet）等进行上下文聚类。..., 'O')] MALLET 麻省大学开发的一个统计自然语言处理的开源包，其序列标注工具的应用中能够实现命名实体识别。

1.5K1 0

万字长文——这次彻底了解LLM大语言模型

让我们通过一个实际的例子来解释Task-specific Fine-tuning（任务特定微调）：假设有一个预训练语言模型以及一个NER（命名实体识别）任务，任务是从文本中识别出人名、地名、组织名等命名实体...在NER任务中，输入是文本序列，输出是相应文本序列中每个词对应的命名实体标签（如人名、地名、组织名等）4. 微调模型：使用预训练模型，将其权重微调到NER任务上。5....当性能满足要求，就可以将该模型部署到实际应用中，用于识别文本中的命名实体。...通过提供任务特定的数据集和相应的标签，可以使模型学会在文本中识别命名实体。...然后，每个任务都有自己的输出层，用于执行文本分类或命名实体识别。这使得模型能够更好地理解文本中的多个信息，并在多个任务之间共享知识。

5.8K6 7

object object_无监督命名实体识别

英语中的命名实体具有比较明显的形式标志，即实体中的每个词的第一个字母要大写，所以实体边界识别相对容易，任务的重点是确定实体的类别。...汉语命名实体识别的难点主要存在于：（1）汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符，命名实体识别的第一步就是确定词的边界，即分词；（2）汉语分词和命名实体识别互相影响；（3）除了英语中定义的实体...，外国人名译名和地名译名是存在于汉语中的两类特殊实体类型；（4）现代汉语文本，尤其是网络汉语文本，常出现中英文交替使用，这时汉语命名实体识别的任务还包括识别其中的英文命名实体；（5）不同的命名实体具有不同的内部特征...近期进行的半监督的命名实体识别实验的结果显示，其性能和基线监督方法的性能相比具有很大竞争力。命名实体识别近年来在多媒体索引、半监督和无监督的学习、复杂语言环境和机器翻译等方面取得大量新的研究成果。...随着半监督的学习和无监督的学习方法不断被引入到这个领域, 采用未标注语料集等方法将逐步解决语料库不足的问题。

7392 0

美团搜索中NER技术的探索与实践

命名实体识别NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要的地位。...背景命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。...现有的新词挖掘技术主要分为无监督学习、有监督学习和远程监督学习。...4.2.1 融合搜索日志特征的Lattice-LSTM 在O2O垂直搜索领域，大量的实体由商家自定义（如商家名、团单名等），实体信息隐藏在供给POI的属性中，单使用传统的语义方式识别效果差。...4.2.2 融合实体词典的两阶段NER 我们考虑将领域词典知识融合到模型中，提出了两阶段的NER识别方法。该方法是将NER任务拆分成实体边界识别和实体标签识别两个子任务。

2.3K2 1

NLP在自监督学习和弱监督学习的应用：从原理到实践

本文将深入探讨NLP在自监督学习和弱监督学习中的应用，通过实例展示它们是如何在文本处理、情感分析、命名实体识别等任务中取得显著成果的。2....lf_contains_negative_word])weak_labels = applier.apply(df)# 训练情感分析模型model = train_sentiment_model(X_train, weak_labels)3.2 命名实体识别在命名实体识别...（NER）任务中，弱监督学习可以通过利用无监督数据中的实体信息进行标注。...# 示例代码：弱监督学习在命名实体识别中的应用from snorkel.labeling import labeling_function@labeling_function()def lf_contains_entity...4.2 案例二：医疗文本实体识别弱监督学习应用于医疗领域的命名实体识别。通过利用医学文献等无监督数据，模型在识别疾病、药物等实体方面取得了令人满意的性能。5.

5200 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭