前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >资源 | 一网打尽成语歇后语,GitHub新华字典数据库

资源 | 一网打尽成语歇后语,GitHub新华字典数据库

作者头像
大数据文摘
发布2018-07-31 15:46:29
1.3K0
发布2018-07-31 15:46:29
举报
文章被收录于专栏:大数据文摘
大数据文摘出品

作者:蒋宝尚

今天,文摘菌给大家推荐一个非常优秀的数据库——新华字典数据库。

数据库收录了包括14032条歇后语,16142个汉字,31648个成语。下面文摘菌就简单的介绍一下这个数据库。

这个数据库放在GitHub中,所有的数据放在data/目录下,并且如果对性能没有要求的同学,可以使用作者的新华字典API访问数据库。

数据库地址:

https://github.com/pwxcoo/chinese-xinhua

项目结构

在GitHub中,整个新华字典数据库的项目结构为:

整个结构包括数据文件夹,配置文件以及脚本文件夹,在脚本文件夹下提供了成语脚本和汉字脚本以及歇后语脚本的下载。

数据库介绍及API的使用

前面提到,整个数据库包括14032条歇后语,16142个汉字,31648个成语。

在使用API查询每条成语的时候,分为两种情况:

  • 如果直接请求成语,需要两个参数: type=idiom 表示需要请求成语 word=兴高采烈 表示请求的成语
  • 请求拼音首字母缩写,也需要两个参数: type=idiom 表示需要请求成语 word=xgcl 表示请求的成语拼音首字母缩写

下面文摘菌用Python简单实现了一下:

返回结果为:

上图可知,当你请求的是成语时,返回的结果包括:成语的来源、成语的解释、成语的拼音、用成语造的句子以及成语的首字母缩写。

当访问歇后语的时候则也需要两个参数:

  • type=xiehouyu 表示需要请求歇后语
  • riddle=王婆 表示请求的歇后语的语面。可以模糊匹配

Python实现?

由上图的Python实现可知,当你输入的关键词是模糊的时候,结果会返回带有关键词的所有歇后语。例如,你查询关键词为王婆的歇后语,返回了三条结果,每条结果包含歇后语的迷面以及歇后语的谜底。

当需要访问汉字的时候,当前接口只能直接请求汉字,不能请求拼音。如果请求了拼音,则返回的结果为空。

请求汉字需要两个参数:

  • type=word 表示需要请求汉字
  • word=“蒋” 表示请求的汉字

Python实现?

如上图所示,当请求‘蒋’这个汉字的时候,返回的结果包括汉字的拼音、汉字的来源、以及汉字的繁体版等等。

注:GET、POST均可,返回数据格式为JSON。

数据库GitHub地址:

https://github.com/pwxcoo/chinese-xinhua

【今日机器学习概念】

Have a Great Definition

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档