欢迎关注”生信修炼手册”!
spider以item的形式返回结构化的信息,这些信息会传递给item pipeline进行处理。在这个环节,我们可以根据需要对数据进一步处理,经典的处理场景有以下几种
1. 去重复
根据业务场景来判断重复,然后去掉重复项,代码如下
2. 验证数据
对数据的有效性进行验证,保留有效数据,代码如下
3. 写入文件
将item中的信息,保存到文件中,代码如下
4. 持久化
将item中的信息,存储到数据库中,以sqlite3为例,代码如下
在pipelines.py中,每个类定义了一个组件,对于多个组件,需要在settings.py中进行配置,控制多个组件的使用顺序,代码如下
后面的数字位于0到800之间,表示优先级,数字越低,优先级越高。
·end·
—如果喜欢,快分享给你的朋友们吧—
原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!
本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。
领取专属 10元无门槛券
私享最新 技术干货