前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >资源 | Python上的图模型与概率建模工具包:pomegranate

资源 | Python上的图模型与概率建模工具包:pomegranate

作者头像
机器之心
发布于 2018-05-11 05:17:03
发布于 2018-05-11 05:17:03
1.9K00
代码可运行
举报
文章被收录于专栏:机器之心机器之心
运行总次数:0
代码可运行

选自GitHub

机器之心编译

参与:路雪

近日,pomegranate 的作者宣布发布新版本 pomegranate v0.9.0。新版本为概率分布、k 均值、混合模型、隐马尔可夫模型、贝叶斯网络、朴素贝叶斯/贝叶斯分类器等模型提供模型拟合、结构化学习和推断过程的修正,并重点关注于处理数据缺失值。

  • 文档地址:http://pomegranate.readthedocs.io/en/latest/
  • GitHub 地址:https://github.com/jmschrei/pomegranate

新版重点关注于缺失值的处理,而我们通常的方法是仅从观察中收集充分数据,并忽略或设定相近的值来代替缺失值。但 pomegranate v0.9.0 会比常见的简单填补方法有更好的结果。作者还宣布适用于所有概率图模型的缺失值处理方法已经调试完毕,不过可能还需修复一些问题。

pomegranate v0.9.0 所做的修正有:

  • 添加了「缺失值」部分的文档。
  • 添加如何进行缺失值处理的扩展教程。
  • 添加了之前作者在 ODSC west 2017 演讲中提到的一些功能。

pomegranate 的模块化本质意味着大家现在可以把缺失值支持和其他功能结合起来用。例如,你可以轻松添加多线程以加快模型速度,或者使用不完整的数据集进行 out-of-core 学习,或用不完整的数据和标签进行半监督学习。

复制该 GitHub repo 或者运行 pip install pomegranate 即可安装 pomegranate。这一次更新确实非常有助于开发者处理更加复杂的概率图模型,它所注重的缺失值处理也优于一般朴素的处理方法。既然这次更新这么有诚意,它所推荐的缺失值处理也非常有效,那么 pomegranate 到底是什么?以下我们将简要介绍 pomegranate 的特性、安装方法与该系统的研究论文。

pomegranate 简介

pomegranate 是基于 Python 的图模型和概率模型工具包,它使用 Cython 实现以加快反应速度。它源于 YAHMM,可实现快速、高效和极度灵活的概率模型,如概率分布、贝叶斯网络、混合隐马尔可夫模型等。概率建模最基础的级别是简单的概率分布。以语言建模为例,概率分布就是是一个人所说的每个单词出现频率的分布。

1. 概率分布

第二个级别是以更复杂的方式使用简单分布的概率模型。马尔可夫链可以扩展简单的概率分布,仍旧以语言建模为例,即某个单词的概率依赖于先前所说单词。隐马尔可夫模型中某个单词的概率依赖于前一个词的潜在/隐藏状态,如名词通常在形容词后面。

  • 马尔可夫链
  • 贝叶斯分类器和朴素贝叶斯
  • 一般混合模型
  • 隐马尔可夫模型
  • 贝叶斯网络
  • 因子图

第三个级别是概率模型的堆叠,可以建模更复杂的现象。如果单个隐马尔可夫模型可以捕捉口音(如某个人的说话习惯),那么混合隐马尔可夫模型可以将其调整以适应特定情况。比如,一个人可能在工作时使用更为正式的语言,在与朋友交流时使用稍微随意的语言。通过将其建模为混合隐马尔可夫模型,我们将这个人的语言表示为各种口音的「混合」。

1. GMM-HMMs

2. 混合模型

3. 模型的贝叶斯分类器

2. 安装

pomegranate 依赖项要求:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
- Cython (only if building from source)
- NumPy
- SciPy
- NetworkX
- joblib

运行测试前,还要安装 nose。

pip 安装:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install pomegranate

conda 安装:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda install pomegranate

无需 C++编译器,快速安装 Windows 版本的 Wheels 已构建完毕。

3. 验证安装

设置已完成,现在需要检查 pomegranate 是否可以使用:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ python -c 'from pomegranate import *; print(NormalDistribution(0, 1).probability(0))'
0.398942280402

如果你没有看到如上输出,或者遇到了其他错误,请提交问题至 https://github.com/jmschrei/pomegranate/issues。此外,若需要了解详细的使用教程,请查看 tutorials 文件夹,里面包含几个关于如何有效使用 pomegranate 的教程。

论文:pomegranate: fast and flexible probabilistic modeling in python

论文地址:https://arxiv.org/pdf/1711.00137.pdf

摘要:本文展示了 pomegranate,一个 Python 下的概率模型开源机器学习包。概率建模包括大量使用概率分布明确描述不确定性的方法。pomegranate 中实现的三种广泛使用的概率模型为通常混合模型、隐马尔可夫模型和贝叶斯模型。pomegranate 的重心是从训练模型的定义中抽象出其复杂性,允许用户专注于为自己的应用选择合适的模型,而不用受到对底层算法理解不足的限制。pomegranate 的这一重心包括从数据集中收集充分的统计数据,作为一种训练模型的策略。该方法使用了很多有用的学习策略,如 out-of-core 学习、小批量学习和半监督学习,用户无需考虑如何分割数据或修改算法,算法自己处理这些任务。pomegranate 用 Cython 构建以加速计算,同时内置多线程并行处理方法,pomegranate 可匹配甚至优于其他类似算法的实现。本文概览了 pomegranate 的设计思路,以及如何使用简单的代码支持复杂的功能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
见证中国数据库的崛起:从追赶到引领的壮丽征程《四》
当我坐在电脑前,看完腾讯云 TVP《技术指针》与《明说三人行》策划了【中国数据库前世今生】系列记录片,
AiCharm
2024/08/14
1720
见证中国数据库的崛起:从追赶到引领的壮丽征程《四》
从《中国数据库前世今生》看中国数据库技术的发展与挑战
在当今数字化浪潮中,数据库技术已成为支撑全球经济运行的核心基础设施。作为程序员,我一直对数据库技术的发展充满好奇。《中国数据库前世今生》纪录片深入探索了中国数据库技术的演变历程,从80年代的萌芽到如今的蓬勃发展,每一个阶段都展现了中国技术人不懈奋斗的历程。在这篇文章中,我将结合纪录片内容,分享我对中国数据库技术发展现状的理解,并探讨未来的挑战与机遇。
用户11240483
2024/09/20
2270
从《中国数据库前世今生》看中国数据库技术的发展与挑战
数据库行业未来发展,一文讲清楚
近期,国际知名调研机构沙利文联合头豹研究院发布了《2021年中国分布式数据库市场报告》。报告显示:腾讯云数据库入选Frost Radar (弗若斯特雷达)领导者象限,增长指数排名第一。为帮助广大数据库爱好者进一步了解报告内容,洞察数据库发展趋势,腾讯云数据库特推出“从沙利文《2021年中国分布式数据库市场报告》看数据库未来”分享会,邀请腾讯云副总裁林晓斌、沙利文中国高级分析师胡竣杰等多位内外部大咖解读沙利文最新报告,多角度探讨数据库行业发展。 本期带来各嘉宾分享精华及直播回顾视频。想要嘉宾ppt的小伙伴,可
腾讯云数据库 TencentDB
2022/05/25
1K0
数据库行业未来发展,一文讲清楚
中国数据库前世今生:90年代的群雄争霸与技术革新
直到今天都是金字招牌的 Oracle,逐渐成为历史的 Sybase 、 Informix,在中国市场失去主流采用地位的 SQL Server、DB2,逐渐发芽的国产数据库小苗……90 年代的中国数据库市场,背靠中国信息化改造迅速落地的时代浪潮,开启了怎样的辉煌与腾飞?
腾讯云开发者
2024/07/12
3210
中国数据库前世今生:90年代的群雄争霸与技术革新
我国90年代数据库的发展史
90年代,是中国计算机技术快速发展和信息化建设的重要时期。随着经济的快速发展和信息化需求的增加,数据库技术在中国得到了广泛的应用和发展。本文将详细介绍我国90年代数据库的发展历程,从初步引入到技术革新,再到市场应用的全面展开。
炒香菇的书呆子
2024/09/21
3100
《中国数据库系列纪录片》轻舟已过万重山
在浩渺的历史长河中,每一个时代都有其独特的印记。对于中国数据库行业而言,同样如此,中国数据库行业作为信息时代发展的重要支柱,其发展历程同样波澜壮阔。《中国数据库系列纪录片》不仅为观众呈现了这一行业的演变,更让我深刻体会到了其中的技术革新和人文情怀。在《中国数据库系列纪录片》的影像之中,会给人一种身临其境,仿佛跨越了时空的界限,亲身经历了中国数据库从蹒跚学步到如今蓬勃发展的五十载历程。其中,90年代的混沌竞争时期,更是给我留下了深刻的印象。
不惑
2024/06/28
2860
《中国数据库系列纪录片》轻舟已过万重山
国产数据库加入战局!00 年代的中国数据库市场发展始末
在数据库技术的不断演进中,00年代无疑是一个变革与突破的时代。随着互联网的迅猛发展,传统关系型数据库迎来了新型数据库技术的挑战和革新。这一时期,不仅见证了全球数据库技术的快速进步,也标志着中国数据库技术的崭露头角。
腾讯云开发者
2024/07/26
1600
国产数据库加入战局!00 年代的中国数据库市场发展始末
中国数据库前世今生观影感受——从数据库看中国IT行业的崛起
作为一名高中二年级的学生,因为从小我家里就有这个条件,我也逐渐发现我有这个天赋,我也就在科技领域和信息技术领域的兴趣逐渐升温。近期,腾讯云搞这个活动,我也就有幸观看了《中国数据库前世今生》这部纪录片,这让我对数据库技术的发展历程有了深刻的了解。纪录片不仅揭示了中国数据库技术的发展过程,也让我看到了中国IT行业的崛起和未来的广阔前景。在此,我想分享一些个人的观影感受,并结合我的学习经历,探讨数据库技术对个人层面和对社会层面的意义。
是山河呀
2024/08/16
1640
见证中国数据库的崛起:从追赶到引领的壮丽征程《一》
当我坐在电脑前,看完腾讯云 TVP《技术指针》与《明说三人行》策划了【中国数据库前世今生】系列记录片,
AiCharm
2024/08/01
1600
见证中国数据库的崛起:从追赶到引领的壮丽征程《一》
《数据库技术及其对我国企业发展的重大贡献》
今天,与各位探讨一个对中国企业发展至关重要的话题——数据库技术及其对我国企业发展的重大贡献。
AiCharm
2024/08/01
1220
《数据库技术及其对我国企业发展的重大贡献》
见证中国数据库的崛起:从追赶到引领的壮丽征程《三》
当我坐在电脑前,看完腾讯云 TVP《技术指针》与《明说三人行》策划了【中国数据库前世今生】系列记录片,
AiCharm
2024/08/02
960
见证中国数据库的崛起:从追赶到引领的壮丽征程《三》
中国数据库前世今生有感
在1970年代末和1980年代初,数据库技术在中国刚刚起步。这一时期,主要是国外数据库产品如Oracle、IBM DB2等在中国的引入和应用。国内的数据库研究和开发也开始起步,但多限于学术研究和试验阶段。1980年代中期到1990年代初,国内逐渐出现了一些自主开发的数据库系统,如深圳大学开发的SDBS系统。
Michel_Rolle
2024/07/11
2.5K0
中国数据库前世今生:90年代的群雄争霸与技术革新
直到今天都是金字招牌的 Oracle,逐渐成为历史的 Sybase 、 Informix,在中国市场失去主流采用地位的 SQL Server、DB2,逐渐发芽的国产数据库小苗……90 年代的中国数据库市场,背靠中国信息化改造迅速落地的时代浪潮,开启了怎样的辉煌与腾飞?
小腾资讯君
2024/07/15
1810
《中国数据库前世今生》观后小结
近期有幸观看了由腾讯云TP技术指针与明说三人行联合策划的专题访谈栏目《中国数据库的前世今生》,深感其中蕴含的历史深度与技术演变之精妙。这部作品不仅带领我们回顾了中国数据库发展的历程,更揭示了技术变迁背后的社会变迁与产业发展的脉络。以下是我的几点观后感。
Towserliu
2024/07/31
1110
《中国数据库前世今生》观后小结
观《中国数据库前世今生》有感:从历史中汲取未来的力量
观看了《中国数据库前世今生》后,我对于中国数据库技术的历史变迁有了更深刻的理解。作为一名有一年开发经验的程序员,这部纪录片让我对中国数据库行业从80年代起步到如今的蓬勃发展,有了全新的认知。今天,我想以亲历者的身份,谈一谈自己在观看这部纪录片后的感想,以及它带给我的启发。
用户11284912
2024/09/19
2040
观《中国数据库前世今生》有感:从历史中汲取未来的力量
深化产学交流合作,腾讯云数据库与学界专家共话技术发展应用
本文转载自“中国日报”官网 数据库技术发端于上世纪五十年代,近几十年,数据库市场几乎被Oracle、DB2等国外厂商所垄断。随着云计算、互联网的发展,国产数据库竞相发展并在云与分布式时代实现新一代数据库技术升级迭代,并逐渐走向产业化应用,为我国基础技术安全可控与产业技术数字化升级发挥巨大的推动作用。 作为国内领先的数据库厂商,腾讯云数据库一直致力于推动数据库基础研究创新、数据库产学研合作生态建设,助力国产数据库学术人才培养和技术创新生态建设发展。 为促进数据库领域的产学交流与合作,让更多数据库从业者了解最新
腾讯高校合作
2022/08/26
3880
腾讯云数据库TDSQL ,数据库国产化替代的关键先生
在某大型银行的总部,该银行CEO王阳与CTO陈晓民坐在一间宽敞的会议室里,面对着一个满是图表和数据的大屏幕,讨论一个关键的挑战:如何用国产数据库来替代Oracle,更好地支撑公司业务的发展。
数据猿
2023/09/15
7800
腾讯云数据库TDSQL ,数据库国产化替代的关键先生
推荐阅读
相关推荐
见证中国数据库的崛起:从追赶到引领的壮丽征程《四》
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文