前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于爬虫数据的解析器设计

关于爬虫数据的解析器设计

作者头像
从今若
发布2019-09-19 15:43:07
3660
发布2019-09-19 15:43:07
举报
文章被收录于专栏:家劲

一、为什么要设计解析器

我的七月小说网肯定不止爬单个站点的,每新增一个站点或者网页dom发生变化就得修改代码,多累哦。 所以我决定弄个数据解析器。

二、设计思路

下面是一个通用的解析规则对象

代码语言:javascript
复制
"parse": {
    "select": ".book-info h1 em",//通过BeautifulSoap 的select选择器,通过传入不同的解析规则(标签、className、id)等取出数据容器。
    "index": 0,//容器的索引位置
    "isList": false, //容器类型
    "func": "text", //预置的数据解析函数
    "state": 1, //解析规则状态
    "siteId": 1 //源站点对应id
}

1.首先确定解析器待获取的数据的类型和字段; 2.通过目标html dom节点确定select值; 3.根据数据类型判断容器类型是否是单个还是多个; 4.选择合适的预置数据处理function;

三、实例

以一个book对象举个例子: 现在要获取bookId, bookName, cover, author, summary, chapters, tags等这些数据。 1.把数据理出来:

代码语言:javascript
复制
book{
    bookId: String!
    bookName: String!
    cover: String!
    author: String
    summary: String
    chapters: List
    tags: List
    ...
}

2.为每个字段设计解析规则 下面是两个典型字段的解析

代码语言:javascript
复制
bookNameParse{
    select: ".book-info h1 em",
    index: 0,
    func: 'text',
    isList: false //容器类型
}
chaptersParse{
    select: ".catalog-content-wrap .volume-wrap .cf li a",
    func: 'list', //预置的数据解析函数  
    isList: true //容器类型
}

四、缺点

所有节点都在整个html dom中选择,可能会导致程序冗余; 程序设计更加复杂化了; 需要更多优化才能保持高可用性; 需要后台管理系统添加解析规则;

五、继续优化

1.添加解析规则的时候,强制校验解析规则的有效性; 2.为解析规则添加状态标记:

正常:解析规则正常运转 待修改:源网页html dom结构发生变化,需要修改; 废弃:不再使用此解析规则

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-02-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、为什么要设计解析器
  • 二、设计思路
  • 三、实例
  • 四、缺点
  • 五、继续优化
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档