前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >学习笔记CB004:提问、检索、回答、NLPIR

学习笔记CB004:提问、检索、回答、NLPIR

原创
作者头像
利炳根
发布于 2018-02-24 05:42:24
发布于 2018-02-24 05:42:24
8470
举报
文章被收录于专栏:利炳根的专栏利炳根的专栏

聊天机器人,提问、检索、回答。

提问,查询关键词生成、答案类型确定、句法和语义分析。查询关键词生成,提问提取关键词,中心词关联扩展词。答案类型确定,确定提问类型。句法和语义分析,问题深层含义剖析。检索,搜索,根据查询关键词信息检索,返回句子或段落。答案抽取,分析和推理检索句子或段落,抽取提问一致实体,根据概率最大对候选答案排序。

海量文本知识表示,网络文本资源获取、机器学习方法、大规模语义计算和推理、知识表示体系、知识库构建。问句解析,中文分词、词性标注、实体标注、概念类别标注、句法分析、语义分析、逻辑结构标注、指代消解、关联关系标注、问句分类、答案类别确定。答案生成过滤,候选答案抽取、关系推演、吻哈程度判断、噪声过滤。

聊天机器人技术类型。基于检索技术,信息检索,简单易实现,无法从句法关系和语义关系给出答案,无法推理问题。基于模式匹配技术,把问题往梳理好的模式匹配,推理简单,模式涵盖不全。基于自然语言理解技术,把浅层分析加句法分析、语义分析。基于统计翻译模型技术,把问句疑问词留出来,和候选答案资源匹配。

问句解析。哈工大LTP(语言技术平台)、博森科技、jieba分词、中科院张华平博士NLPIR汉语分词系统。

NLPIR,http://pynlpir.readthedocs.io/en/latest/。安装 pip install pynlpir 。下载授权文件 https://github.com/NLPIR-team/NLPIR/blob/master/License/license%20for%20a%20month/NLPIR-ICTCLAS分词系统授权/NLPIR.user,替换pynlpir/Data目录的已过期文件。

# coding:utf-8

import sys

import importlib

importlib.reload(sys)

import pynlpi

pynlpir.open()

# s = '聊天机器人到底该怎么做呢?'

s = '海洋是如何形成的'

# 分词 分析功能全打开 不使用英文

segments = pynlpir.segment(s, pos_names='all', pos_english=False)

for segment in segments:

print(segment[0], 't', segment[1])

# 关键词提取

key_words = pynlpir.get_key_words(s, weighted=True)

for key_word in key_words:

print(key_word[0], 't', key_word[1])

pynlpir.close()

segment 切词,返回tuple(token, pos),token切词,pos 语言属性。调用segment方法,指定pos_names参数'all' 、'child' 、'parent',默认parent 表示获取词性最顶级词性。child 表示获取词性最具体信息。all 表示获取词性相关所有词性信息,从顶级词性到该词性路径。

词性分类表。nlpir 源代码 /pynlpir/pos_map.py,全部词性分类及其子类别:

POS_MAP = {

'n': ('名词', 'noun', {

'nr': ('人名', 'personal name', {

'nr1': ('汉语姓氏', 'Chinese surname'),

'nr2': ('汉语名字', 'Chinese given name'),

'nrj': ('日语人名', 'Japanese personal name'),

'nrf': ('音译人名', 'transcribed personal name')

}),

'ns': ('地名', 'toponym', {

'nsf': ('音译地名', 'transcribed toponym'),

}),

'nt': ('机构团体名', 'organization/group name'),

'nz': ('其它专名', 'other proper noun'),

'nl': ('名词性惯用语', 'noun phrase'),

'ng': ('名词性语素', 'noun morpheme'),

}),

't': ('时间词', 'time word', {

'tg': ('时间词性语素', 'time morpheme'),

}),

's': ('处所词', 'locative word'),

'f': ('方位词', 'noun of locality'),

'v': ('动词', 'verb', {

'vd': ('副动词', 'auxiliary verb'),

'vn': ('名动词', 'noun-verb'),

'vshi': ('动词"是"', 'verb 是'),

'vyou': ('动词"有"', 'verb 有'),

'vf': ('趋向动词', 'directional verb'),

'vx': ('行事动词', 'performative verb'),

'vi': ('不及物动词', 'intransitive verb'),

'vl': ('动词性惯用语', 'verb phrase'),

'vg': ('动词性语素', 'verb morpheme'),

}),

'a': ('形容词', 'adjective', {

'ad': ('副形词', 'auxiliary adjective'),

'an': ('名形词', 'noun-adjective'),

'ag': ('形容词性语素', 'adjective morpheme'),

'al': ('形容词性惯用语', 'adjective phrase'),

}),

'b': ('区别词', 'distinguishing word', {

'bl': ('区别词性惯用语', 'distinguishing phrase'),

}),

'z': ('状态词', 'status word'),

'r': ('代词', 'pronoun', {

'rr': ('人称代词', 'personal pronoun'),

'rz': ('指示代词', 'demonstrative pronoun', {

'rzt': ('时间指示代词', 'temporal demonstrative pronoun'),

'rzs': ('处所指示代词', 'locative demonstrative pronoun'),

'rzv': ('谓词性指示代词', 'predicate demonstrative pronoun'),

}),

'ry': ('疑问代词', 'interrogative pronoun', {

'ryt': ('时间疑问代词', 'temporal interrogative pronoun'),

'rys': ('处所疑问代词', 'locative interrogative pronoun'),

'ryv': ('谓词性疑问代词', 'predicate interrogative pronoun'),

}),

'rg': ('代词性语素', 'pronoun morpheme'),

}),

'm': ('数词', 'numeral', {

'mq': ('数量词', 'numeral-plus-classifier compound'),

}),

'q': ('量词', 'classifier', {

'qv': ('动量词', 'verbal classifier'),

'qt': ('时量词', 'temporal classifier'),

}),

'd': ('副词', 'adverb'),

'p': ('介词', 'preposition', {

'pba': ('介词“把”', 'preposition 把'),

'pbei': ('介词“被”', 'preposition 被'),

}),

'c': ('连词', 'conjunction', {

'cc': ('并列连词', 'coordinating conjunction'),

}),

'u': ('助词', 'particle', {

'uzhe': ('着', 'particle 着'),

'ule': ('了/喽', 'particle 了/喽'),

'uguo': ('过', 'particle 过'),

'ude1': ('的/底', 'particle 的/底'),

'ude2': ('地', 'particle 地'),

'ude3': ('得', 'particle 得'),

'usuo': ('所', 'particle 所'),

'udeng': ('等/等等/云云', 'particle 等/等等/云云'),

'uyy': ('一样/一般/似的/般', 'particle 一样/一般/似的/般'),

'udh': ('的话', 'particle 的话'),

'uls': ('来讲/来说/而言/说来', 'particle 来讲/来说/而言/说来'),

'uzhi': ('之', 'particle 之'),

'ulian': ('连', 'particle 连'),

}),

'e': ('叹词', 'interjection'),

'y': ('语气词', 'modal particle'),

'o': ('拟声词', 'onomatopoeia'),

'h': ('前缀', 'prefix'),

'k': ('后缀', 'suffix'),

'x': ('字符串', 'string', {

'xe': ('Email字符串', 'email address'),

'xs': ('微博会话分隔符', 'hashtag'),

'xm': ('表情符合', 'emoticon'),

'xu': ('网址URL', 'URL'),

'xx': ('非语素字', 'non-morpheme character'),

}),

'w': ('标点符号', 'punctuation mark', {

'wkz': ('左括号', 'left parenthesis/bracket'),

'wky': ('右括号', 'right parenthesis/bracket'),

'wyz': ('左引号', 'left quotation mark'),

'wyy': ('右引号', 'right quotation mark'),

'wj': ('句号', 'period'),

'ww': ('问号', 'question mark'),

'wt': ('叹号', 'exclamation mark'),

'wd': ('逗号', 'comma'),

'wf': ('分号', 'semicolon'),

'wn': ('顿号', 'enumeration comma'),

'wm': ('冒号', 'colon'),

'ws': ('省略号', 'ellipsis'),

'wp': ('破折号', 'dash'),

'wb': ('百分号千分号', 'percent/per mille sign'),

'wh': ('单位符号', 'unit of measure sign'),

}),

}

参考资料:

Python 自然语言处理

http://www.shareditor.com/blogshow?blogId=73

http://www.shareditor.com/blogshow?blogId=74

欢迎推荐上海机器学习工作机会,我的微信:qingxingfengzi

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
Oracle优化06-Hint
在Oracle 10g中,CBO 可选的运行模式有2种: (1) FIRST_ROWS(n) (2) ALL_ROWS – 10g中的默认值
小小工匠
2021/08/16
1.2K0
常见Oracle HINT的用法
Hint概述 基于代价的优化器是很聪明的,在绝大多数情况下它会选择正确的优化器,减轻了DBA的负担。但有时它也聪明反被聪明误,选择了很差的执行计划,使某个语句的执行变得奇慢无比。
jack.yang
2025/04/05
940
Oracle Hints具体解释
在向大家具体介绍Oracle Hints之前,首先让大家了解下Oracle Hints是什么,然后全面介绍Oracle Hints,希望对大家实用。基于代价的优化器是非常聪明的,在绝大多数情况下它会选择正确的优化器,减轻了DBA的负担。但有时它也聪明反被聪明误,选择了非常差的运行计划,使某个语句的运行变得奇慢无比。
全栈程序员站长
2022/07/13
4560
SQL优化:一篇文章说清楚Oracle Hint的正确使用姿势
Hint是Oracle数据库中很有特色的一个功能,是很多DBA优化中经常采用的一个手段。那为什么Oracle会考虑引入优化器呢?基于代价的优化器是很聪明的,在绝大多数情况下它会选择正确的优化器,减轻DBA的负担。
宜信技术学院
2019/11/12
9K0
【SQL执行计划】优化器相关Hint
嘉宾介绍: 在SQL优化中,除了可以通过修改参数的方式干预优化器工作外,还可以使用提示的方式进行干预,而且这种方式更加精准、不影响其他SQL,故使用场景更加广泛。 1. ALL_ROWS 说明: AL
数据和云
2018/03/06
1.1K0
【SQL执行计划】优化器相关Hint
Oracle调优之Hint用法整理笔记
整理工作中用到的Hint,不定时更新,Hint是oracle早期因为oracle优化器还不是很完善加上去的,可以辅助oracle优化器,Hint 是Oracle 提供的一种SQL语法,常用于SQL调优,通过Hint强行改变Oracle的执行计划,从而实现sql调优
SmileNicky
2022/05/07
6690
【DB笔试面试574】在Oracle中,什么是RBO和CBO?
Oracle数据库中优化器(Optimizer)是SQL分析和执行的优化工具,是Oracle数据库中内置的一个核心模块。优化器的目的就是为了得到目标SQL的执行计划。Oracle数据库里的优化器又分为RBO(rule-Based Optimizer,基于规则的优化器)和CBO(Cost-Based Optimizer,基于成本的优化器)这两种类型。从Oracle 10g开始,Oracle数据库默认都是基于CBO的优化方式。
AiDBA宝典
2019/09/29
1.4K0
【DB笔试面试574】在Oracle中,什么是RBO和CBO?
读书笔记-《基于Oracle的SQL优化》-第一章-3
用于决定在Oracle中解析目标SQL时所用优化器的类型,以及决定当使用CBO时计算成本值的侧重点。这里的“侧重点”是指当使用CBO来计算目标SQL各条执行路径的成本值时,计算成本值的方法会随着优化器模式的不同而不同。
bisal
2019/01/29
8140
Oracle优化04-Optimizer优化器
Oracle数据库中的优化器是SQL分析和执行的优化工具,它负责制定SQL的执行计划,也就是它负责保证SQL执行效率最高.
小小工匠
2021/08/16
1.3K0
Oracle调优之看懂SQL执行计划explain
之前曾经拜读过《收获,不止sql调优》一书,此书是国内DBA写的一本很不错的调优类型的书,是一些很不错的调优经验的分享。虽然读了一遍,做了下读书笔记,觉得很有所收获,但是到实际的实践中觉得还是很缺实践。刚好最近又有一次sql调优培训活动,去参加后,重新复习Oracle执行计划,所以整理资料,做成笔记分享出来
SmileNicky
2020/06/19
8K0
Oracle调优之看懂SQL执行计划explain
Oracle SQL性能优化40条,值得收藏
语法分析> 语义分析> 视图转换 >表达式转换> 选择优化器 >选择连接方式 >选择连接顺序 >选择数据的搜索路径 >运行“执行计划”
数据和云
2019/05/13
2.8K0
【DB笔试面试605】在Oracle中,SQL概要(SQL Profile)的作用是什么?
SQL Profile就是为某条SQL语句提供除了系统统计信息、对象(表和索引等)统计信息之外的其它信息,比如运行环境、额外的更准确的统计信息,以帮助优化器为SQL语句选择更适合的执行计划。SQL Profile可以说是Outline的进化。Outline能够实现的功能SQL Profile也完全能够实现,而SQL Profile具有Outline不具备的优化,最重要的有两点:①SQL Profile更容易生成、更改和控制。②SQL Profile在对SQL语句的支持上做得更好,也就是适用范围更广。
AiDBA宝典
2019/09/29
1.1K0
SQL优化二(SQL性能调优)
一·、前言:这篇博文内容非原创,是我们公司的架构师给我们做技术培训的时候讲的内容,我稍微整理了下,借花献佛。这篇博文只是做一个大概的科普介绍,毕竟SQL优化的知识太大了,几乎可以用一本书来介绍。另外,博主对SQL优化也是刚刚接触,也有很多不了解的地方,说的不对的地方,还请大家指正,共勉! 二、oracle服务器,所谓oracle服务器指的是一个数据库管理系统,它包括一个oracle实例(动态)和一个oracle数据库(静态)。 oracle实例是一个运行的概念,提供了一种访问数据库的方式,由SGA和一些后
JMCui
2018/03/15
1.5K0
SQL优化二(SQL性能调优)
85-这些SQL调优小"技巧",你学废了吗?
下面这篇文章来自某微信公众号,作者收集了oracle 较早版本的一些SQL优化"技巧",文章标题起的很是诱人.
老虎刘
2022/06/22
1.2K0
Oracle优化
本文内容来源作者实践、公司内部资源及国外文章翻译,大家觉得有样可以拿走,高兴时可以在你文章末尾留下博客地址引用。
jack.yang
2025/04/05
1440
Oracle Hint用法整理笔记
强制使用联合型的关联型(CONNECT BY WITH FILTERING) ,ps:详情
SmileNicky
2019/05/14
1.7K0
分享:Oracle sql语句优化
最近做查询时,写的一条查询语句用了两个IN,导致tuexdo服务积压了不少,用户没骂就不错了。最后经过技术经理的点拨,sql语句性能提升了大约10倍,主要用了表连接、建索引、exists。这才感叹SQL性能优化的重要性啊,网上搜了半天,找到一篇令我非常满意的日志,忍不住分享之:
williamwong
2018/07/24
3.3K0
分享:Oracle sql语句优化
Oracle固定SQL的执行计划(二)—SPM
之前写了一篇文章介绍的是用SQL Profile来调整、稳定目标SQL的执行计划,即使无法修改目标SQL的SQL文本。但SQL Profile实际上只是一种亡羊补牢、被动的技术手段,应用在那些执行计划已经发生了不好的变更的SQL上,即当我们发现这些SQL的执行计划已经出了问题时通过创建SQL Profile来纠正、稳定这些SQL的执行计划。即便通过创建SQL Profile解决了目标SQL执行计划变更的问题,依然不能保证系统后续执行的SQL的执行计划就不再发生不好的变更。这种不确定性会给Oracle数据库大版本升级(比如从Oracle 10g升级到Oracle 11g)带来一系列的麻烦,因为不清楚升级之后原先系统中哪些SQL的执行计划会发生不好的变更。
星哥玩云
2022/08/13
1.3K0
Oracle固定SQL的执行计划(二)—SPM
Oracle Sql优化
3.Oracle在执行IN子查询时,首先执行子查询,将查询结果放入临时表再执行主查询。而EXIST则是首先检查主查询,然后运行子查询直到找到第一个匹配项。NOT EXISTS比NOT IN效率稍高。但具体在选择IN或EXIST操作时,要根据主子表数据量大小来具体考虑。
斯文的程序
2019/11/07
1.5K0
Oracle性能优化之HINT的用法
       1. /*+ALL_ROWS*/   表明对语句块选择基于开销的优化方法,并获得最佳吞吐量,使资源消耗最小化.   例如:   SELECT /*+ALL+_ROWS*/ EMP_NO,EMP_NAM,DAT_IN FROM BSEMPMS WHERE EMP_NO='SCOTT';    2. /*+FIRST_ROWS*/   表明对语句块选择基于开销的优化方法,并获得最佳响应时间,使资源消耗最小化.   例如:   SELECT /*+FIRST_ROWS*/ EMP_NO,EMP_NAM,DAT_IN FROM BSEMPMS WHERE EMP_NO='SCOTT';
jack.yang
2025/04/05
570
相关推荐
Oracle优化06-Hint
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档