前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于机器学习的自动问答系统构建

基于机器学习的自动问答系统构建

作者头像
sparkexpert
发布于 2018-01-09 08:03:15
发布于 2018-01-09 08:03:15
1.8K0
举报

  自动问答系统是当前自然语言处理领域一个非常热的方向。它综合运用了知识表示、信息检索、自然语言处理等技术。自动问答系统能够使用户以自然语言提问的形式而不是关键词的组合,提出信息查询需求,系统依据对问题进行分析,从各种数据资源中自动找出准确的答案。从系统功能上讲,自动问答分为开放域自动问答和限定域自动问答。开放域是指不限定问题领域,用户随意提问,系统从海量数据中寻找答案;限定域是指系统事先声明,只能回答某一个领域的问题,其他领域问题无法回答。

  为了测试这个方面可行与否,近期,利用百度知道的相关问答语料,测试了下。

  具体步骤:

  (1)数据预处理:将百度知道的原始数据通过预处理整合成格式规范的数据导入数据库中,方便后续处理,就形成了训练数据所需的原始数据集。

   (2)构建分类器:利用所给数据训练文本分类器模型,在用户提出测试问题时可以将测试问题贴上类别标签,锁定答案的知识范围;、

  (3) 相似问题检索:将测试问题与训练语料库中相同类别下的其它问题进行文本相似度计算,找出相似度较高的问题作为相似问题集合

(4) 答案抽取:将相似问题集合中的所有答案进行排序,选出最佳答案反馈给用户。

里面的核心技术是分类器的构建,由于还没采用深度学习的办法,目前只采用SVM分类器进行测试,发现还是可行的。而相似问题计算这种,有很多现成的东东。

  用JAVA代码实现,测试结果如下:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016年09月06日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
那位用Rust重写数据库的创始人来复盘了:删除27万行C++代码,值吗?
嘉宾 | 吴英骏博士 采访 | 赵钰莹 数据库初创企业 RisingWave Labs 曾经发表了一篇博客文章,宣布完全删除掉了 RisingWave(该公司开发的云原生流式数据库) 的 27 万行 C++ 代码库,并用 Rust 语言从头开始重写了一遍系统。本文,我们采访到了该公司的创始人 &CEO 吴英骏博士,详细探讨了重写前中后期的准备、遇到的问题以及经验复盘。 放弃 Rust,初抉择是 C++ InfoQ:选择哪种编程语言和 RisingWave 的特性有关系吗? 吴英骏:RisingWav
深度学习与Python
2023/03/29
9220
那位用Rust重写数据库的创始人来复盘了:删除27万行C++代码,值吗?
DuckDB:适用于非大数据的进程内Python分析
DuckDB 是一款进程内分析数据库,它可以在无需维护分布式多服务器系统的情况下处理出人意料的大型数据集。最棒的是什么?您可以直接从 Python 应用程序分析数据。
云云众生s
2024/06/03
2.1K0
ClickHouse 撇清与俄罗斯的关系:其是美国公司
ClickHouse起源于俄罗斯的Yandex,其商业化由美国公司Altinity主导。 ClickHouse是一款面向列的数据库管理系统,允许使用SQL查询实时生成分析报告。ClickHouse在2016年开始走红,Apache Spark那时候恰好处于鼎盛时期。TiDB在2020年的活跃代码贡献者也超过200个。CockroachDB、Prometheus、MongoDB和TrinoDB则处于第二竞争梯队,活跃贡献者在150个至170个之间。 Altinity CEO 3月8日发表声明称:ClickH
云头条
2022/04/06
9770
ClickHouse 撇清与俄罗斯的关系:其是美国公司
现场报道 SIGMOD 2019 数据库顶级会议
| 导语ACM SIGMOD/PODS 2019 数据管理国际会议于6月30日到7月5日在荷兰首都阿姆斯特丹召开。腾讯技术团队直击现场第一时间带回大会盛况。 SIGMOD第一天大会Keynote主题为“Responsible Data Science”;第二天的Keynote主题是区块链,更偏应用一些,由IBM Almaden研究中心的著名数据库研究员C. Mohan报告。他自从2016年以来重点研究和推广区块链技术,据统计已经在全世界十几个国家做过相关的报告。区块链技术经过了十年的发展,至今还存在一些争
腾讯数据库技术
2019/07/09
2K0
现场报道 SIGMOD 2019 数据库顶级会议
2025 年 3月 Apache Hudi 社区新闻
欢迎阅读由 Onehouse.ai[1] 为您带来的 2025 年 3 月 Hudi 通讯!本月,我们为您带来新一轮的项目更新、社区焦点和技术深度探讨,这些内容将继续塑造数据仓库的未来。
ApacheHudi
2025/04/05
800
2025 年 3月 Apache Hudi 社区新闻
80 岁 Postgres 创始人、数据库领域“祖师爷”想颠覆数据库设计:不推翻下当前技术,不足以谈人生
刚刚过完 80 岁生日的 Michael Stonebraker 没打算退休,近年来他又开始了新的尝试,希望再一次改变世界。
深度学习与Python
2023/12/28
2460
80 岁 Postgres 创始人、数据库领域“祖师爷”想颠覆数据库设计:不推翻下当前技术,不足以谈人生
分析型数据库之MonetDB
提示:公众号展示代码会自动折行,建议横屏阅读 ---- 1 历史 MonetDB是荷兰阿姆斯特丹大学数学和计算机科学的一个研究所CWI开发的。CWI最有名的是发明了Python(Python之父Guido van Rossum毕业于阿姆斯特丹大学,当时在这里工作),并且还发明了MonetDB、VectorWise(2008年)等产品。 MonetDB起源于二十世纪90年代,一个数据挖掘项目需要一个分析型数据库,CWI开发了一叫Data Distilleries,该产品成为了MonetDB的早期产品。 Mo
腾讯数据库技术
2019/11/08
3.6K0
分析型数据库之MonetDB
KubeCon Europe 上发现的数据库趋势
翻译自 Database Trends Spotted at KubeCon Europe 。
云云众生s
2024/03/27
1430
未来五年,大数据将与云计算更加融合
很多初创公司都引入了云平台上的管理服务,按需部署自己的系统。大数据和云计算的融合往往是互联网公司的首先项,尤其是初创的软件和数据服务供应商。
IT阅读排行榜
2018/08/13
5420
【资讯】甲骨文推出大数据SQL今年秋季上市
企业正在寻求以创新方式管理尽可能多的数据及数据源。尽管Hadoop、NoSQL等技术提供了应对大数据问题的具体方法,但是这些技术却可能引入数据孤岛,导致形成关键洞察力所需的数据访问及数据分析复杂化。为了最大化信息价值,更好的处理大数据,企业需要逐步改变数据管理架构,使之变成大数据管理系统,以无缝整合各种来源、所有类型的数据,包括Hadoop、关系数据库以及NoSQL。大数据管理系统在简化所有数据访问的同时,还应该帮助企业利用人员的现有技能,保持企业级数据安全性及数据治理能力,并且保护敏感信息,满足监管要
小莹莹
2018/04/19
5600
【资讯】甲骨文推出大数据SQL今年秋季上市
译:排名前20位的大数据职位及其职责,你能胜任么?
大数据在全球范围内的IT就业市场占有越来越重要的影响。根据Gartner公司提供的数据,截至到2015年将有440万的IT工作来支持大数据,仅美国就会有190万的IT工作产生。看看我们列出的排名前20位的大数据职位及其职责列表。 首席数据官Chief DataOfficer 职责: a. 与行政人员,数据所有者和数据管理员共同为内部和外部的客户创建数据管理策略并且实现数据的准确性和制定工作流程的需求目标。 b. 引导EIM程序,业务数据管理员和数据服务供应商提供数据管理活动。 c. 建立数据政策,标准,
小莹莹
2018/04/20
6410
译:排名前20位的大数据职位及其职责,你能胜任么?
15 年云数据库老兵:数据库圈应告别“唯性能论”
本文由 Cloudberry Database 社区编译自 MotherDuck 官网博文《PERF IS NOT ENOUGH》,原作者为 Jordan Tigani( MontherDuck 联合创始人兼 CEO),译文较原文稍有调整。
深度学习与Python
2024/03/18
2400
15 年云数据库老兵:数据库圈应告别“唯性能论”
图灵奖得主回顾与展望:数据库发展 60 年,AI 颠覆在即?
文章概要:数据库领域的两位重量级人物 Michael Stonebraker 和 Andrew Pavlo 联合发表论文,以 20 年为周期洞悉数据库产业发展,盘点数据库领域的发展,本文是第二篇(https://db.cs.cmu.edu/papers/2024/whatgoesaround-sigmodrec2024.pdf),第一篇发表于 2004 年(https://books.google.com/books?hl)。文章结合近 2 年来 AI 蓬勃发展,给出了非常具体的辛辣“评论”。两位大神作者,帮助读者拨开迷雾,了解数据库领域发展的脉络,帮助读者看清数据技术的发展路线。Michael Stonebraker 和 Andrew Pavlo 的总结很有洞见,但笔者不完全同意文中对未来的预测观点,同时认为支撑 RDBMS 和 SQL 的核心支柱正在发生动摇:AI 的出现正在撼动数据库领域的“传统”模式。未来的数据架构和模式的演进,有更多可能性等待业界学者和产研专家们发掘。
深度学习与Python
2024/07/24
2690
图灵奖得主回顾与展望:数据库发展 60 年,AI 颠覆在即?
数据库信息速递 MONGODB CTO 看数据库发展趋势 与 不使用MONGODB你就要交“创新税”
MongoDB的首席技术官Mark Porter深入了解数据库市场,并探讨了所谓的"创新税"如何阻碍生产出色科技解决方案的能力。
AustinDatabases
2023/09/06
1650
数据库信息速递  MONGODB CTO 看数据库发展趋势 与  不使用MONGODB你就要交“创新税”
为了让你搞定数据库选型,这些工程师重写了 26 万行代码
作者 | 王一鹏 无论多么有主见的架构师,在做数据库选型的时候,也可能会犯难。 传统 SQL、NoSQL 还是 NewSQL?架构风格是以 久经考验的关系型数据库为主,还是偏向所谓原生的分布式架构?如果提及具体产品,那选择就更多了,TiDB、OceanBase、PolarDB、TDSQL、GaussDB、MongoDB…… 现在还有许多服务于新场景的产品,比如处理时序数据的 TDengine,处理图数据的 Nebula Graph……以及最老派又最完善的 Oracle。 如果从业务场景或即将面临的迁移成
深度学习与Python
2023/04/01
2700
为了让你搞定数据库选型,这些工程师重写了 26 万行代码
「集成架构」2020年最好的15个ETL工具(第二部)
ETL代表提取、转换和加载。它是从任何数据源中提取数据并将其转换为适当格式以供存储和将来参考的过程。
架构师研究会
2021/01/06
2.4K0
「集成架构」2020年最好的15个ETL工具(第二部)
以 Hadoop 和 PostgreSQL 为例,探析数据库拆解的影响
数据库界最近的一个趋势是将数据库拆解成它的组成部分。每个组件都是单独提供的,因此基础设施工程师可以将它们集成到数据库中。
深度学习与Python
2024/03/07
2250
以 Hadoop 和 PostgreSQL 为例,探析数据库拆解的影响
技术译文 | 数据库只追求性能是不够的!
本文和封面来源:https://motherduck.com/,爱可生开源社区翻译。
爱可生开源社区
2024/03/18
2030
技术译文 | 数据库只追求性能是不够的!
巨杉数据库宣布获得1000万美元B轮融资,DCM领投
<数据猿导读> 在当前的资本寒冬之下,国内领先的新一代分布式数据库厂商SequoiaDB巨杉数据库宣布获得世界顶级投资机构DCM领投的B轮融资1000万美元,A轮投资机构启明创投跟投,而此次融资也成为
数据猿
2018/04/20
1.4K0
巨杉数据库宣布获得1000万美元B轮融资,DCM领投
Andy Pavlo:回顾数据库的 2021
本文最初发表于 OtterTune 网站,经原作者 Andy Pavlo 授权,InfoQ 中文站翻译并分享。
深度学习与Python
2022/03/22
9190
Andy Pavlo:回顾数据库的 2021
推荐阅读
相关推荐
那位用Rust重写数据库的创始人来复盘了:删除27万行C++代码,值吗?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档