上次我们玩了一下自动作诗机:"自动作诗机"上线,代码和数据都是公开的,基于该项目下自带的数据和模型。不过这方面还有一个诗词数据更全的Github项目:chinese-poetry/chinese-poetry
"最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。"
Github链接,点击阅读原文可以直达,推荐Star:
https://github.com/chinese-poetry/chinese-poetry
中文诗歌主页是一个基于浏览器的诗词网站, 包含唐诗三百首、宋词三百首等文集.
最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网.
为什么要做这个仓库? 古诗是中华民族乃至全世界的瑰宝, 我们应该传承下去, 虽然有古典文集, 但大多数人并没有拥有这些书籍. 从某种意义上来说, 这些庞大的文集离我们是有一定距离的。而电子版方便拷贝, 所以此开源数据库诞生了. 你可以用此数据做任何有益的事情, 甚至我也可以帮助你.
古诗采集没有记录过程, 因为古诗数据庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋词, 全宋词爬取过程及数据分析.
待补充