前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python常见的5种框架

python常见的5种框架

作者头像
全栈程序员站长
发布2022-09-08 10:58:33
1.3K0
发布2022-09-08 10:58:33
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

1.scrapy框架

scrapy框架是一套比较成熟的python爬虫框架,是使用python开发的快速、高层次的信息爬取框架,可以高效率地爬取web页面并提取出我们关注的结构化数据。

scrapy框架的应用领域有许多,比如网络爬虫,数据挖掘、数据监测、自动化测试等。

scrapy框架是一套开源的框架,开源也就意味着我们能够看到并且免费试用scrapy的所有代码。

2.crawley框架

crawley也是使用python开发出来的一款爬虫框架,该框架致力于改变人们从互联网中提取数据的方式,让大家可以更高效地从互联网中爬取对应内容。

crawley框架的主要特点有:

1>高速爬取对应网站内容

2> 可以将爬取到内容轻松地存储到数据库中,比如:postgres,mysql,oracle,sqlite等数据库

3>可以将爬取到的数据导出为json,xml等格式

4>支持非关系型数据库,比如:mongodb,couchdb等

5>支持使用命令行工具

6>可以使用你喜欢的工具提取数据,比如使用xpath或者pyquery等工具

7>支持使用cookie登陆并访问哪些只有登陆才能够访问的网页

8>简单易学

3.portia框架

portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架,给出你要爬取的网页中感兴趣的数据内容,通过portia框架,可以将你所需要的信息从相似的网页中自动提取出来,如果需要,可以子啊github上的主页进行获取。如果需要,上百度自己查吧,,具体的我就不写了。

4.newspaper框架

newspaper框架是一种用来提取新闻、文章以及内容分析的python爬虫框架。更准确地说,newspaper是一个python的库,只不过这个库是由第三方开发的,可以归为一种框架。

newspaper框架在的主要特点:

1>比较简单

2>速度比较快

3>支持多线程

4>支持十多种语言

由此我们可以知道newspaper框架是轻量级框架,并且就爬取文章信息这一功能来说,使用起来很方便

5.Python-goose框架

coose本来是一款用java写的文章提取工具,Xavier Grangier用python重写了goose,并将重写后goose命名为python-goose。

所以,python-coose框架实现的功能同样是进行文章提取。

以上是python常用的5种框架,这是我知道,,如果各位大神,还有其他的 ,也可以留言,相互沟通,学习。另外后面3种框架可以再github上找到。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/134623.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年6月6,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档