前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >不想写代码?这些数据采集器都可以帮你轻松爬数据!

不想写代码?这些数据采集器都可以帮你轻松爬数据!

作者头像
州的先生
发布于 2021-08-13 06:29:04
发布于 2021-08-13 06:29:04
1.5K0
举报
文章被收录于专栏:州的先生州的先生

作为一个 3 月经验用了 3 年的半吊子前爬虫程序员,难免有在采集数据时不想写代码的时候,毕竟轮子天天造,requests.get 都写腻了写烦了。

而且相信很多做数据分析的同学,也不会为了搞一份临时的数据,就专门去学个爬虫。毕竟:

我就想写个爬虫,怎么要学那么多东西?

还好市面上有很多傻瓜式的数据采集器,不用写一行代码就能采集数据,这些数据采集器的使用体验到底如何呢?

州的先生就来给大家做一个不深不浅的测评,方便大家在不想写代码的时候,也能够顺利采集到数据。

火车头采集器

今天是第一个选手——火车头采集器

据火车头官网的介绍:

火车采集器是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。软件凭借其灵活 的配置与强大的性能领先国内数据采集类产品,并赢得众多用户的一致认可。

作为国内数据采集器的老前辈,这个自夸自擂还是有资格的。

我们首先到它的官网上下载最新的软件包:

然后安装完成就可以了。

要使用首先得进行登录,没辙,先去注册一个吧。之后顺利登录,就进入到了程序的主界面:

说实话,看到这个界面,我是有点懵的,这应该是一个专业级别的软件。

不行,看看它的使用手册先。

火车采集器是一个非常专业的数据抓取和数据处理软件,对软件使用者有较高的技术要求, 使用者要有基本的HTML基础,能看得懂网页源码,网页结构。同时如果用到web发布或数据库发布,则对自己文章系统及数据存储结构要非常了解。如果您相关基础薄弱,则需要花时间学习相关知识并多看使用手册,才可以掌握程序的使用.

按照手册的介绍,学习采集器时,如有以下相关知识,将会对程序的使用起到促进作用:

  • html基础 了解网页的基本知识,帮助分析网页结构 http://www.w3school.com.cn/html/index.asp
  • 正则表达式的使用 http://www.regexlab.com/zh/regref.htm
  • Http协议的相关知识 Http请求抓包的方法 http://www.fiddler2.com/fiddler2/
  • Access,Mysql,Sqlserver,Sqlite,Oracle,Mongo数据库的使用
  • 代理服务器,FTP服务器相关知识
  • 常见的SQL语句
  • 插件需要PHP或C#编程功底的支持
  • Apache或IIS服务器架设,网站的安装

得嘞,所需的计算机和编程知识还不少。

虽然不用写代码,但是也得会写代码呀。

再看看火车头采集器的任务新建窗口:

一共 4 个步骤,每个步骤都还有一大串的配置,感觉是相当的繁琐。

在这里,州的先生以采集「州的先生博客」为例来演示一下:

首先,配置采集的网址:

然后,内容采集规则我们也使用默认的:

内容发布规则,我们选择保存到本地CSV文件:

其他设置里面,主要用于配置代理、Cookie、线程等信息,我们都使用默认的。

输入任务名称之后,我们点击保存。程序主窗口的任务列表中就会出现我们刚刚新建的任务:

点击选中这个任务,然后鼠标右键选择「开始」以启动任务:

这样,我们的采集任务就已经开始了,在「运行管理」选项卡中可以看到任务运行的状态:

任务运行完成之后,可以看到程序采集的数据列表:

和数据内容:

虽然配置页面看起来很复杂,对于有数据采集经验的人来说,还是相对比较简单的,但是如果没有数据采集经验,操作起来就有点难度。

这种难度并非说是任务运行的难度,而是程序采集下来的数据与自己需求之间不匹配的难度。

八爪鱼采集器

下面再来看看另一个选手——八爪鱼。

首页,界面就很互联网。而且主页还提供了很多模板,相当于直接使用这些模板就可以采集数据了。

不过,和上一个火车头一样,我们用州的先生博客来进行测试。

在输入框中输入州的先生博客的域名后,出现了一个按钮,提示网址已识别,可以直接进行采集。这简直也太方便了吧,那咱们来试试。

点击后跳转到了一个 WebView 的窗口,打开了州的先生博客:

但是这加载也太慢了。

等了十来分钟,还没打开。罢了,不用博客做测试了。选择一个热门模板来试试吧:

来看看亿万爬虫都垂涎欲滴的淘宝数据:

之前一直以为八爪鱼可以搞定淘宝的反爬验证,看来是我想多了

而且免费用户还不能使用,罢了罢了。

换腾讯网来试试,输入网址后,打开的网页,然后自动下拉网页:

最终识别出了列表数据(但是不排除是八爪鱼后台服务器以模板的形式已经预置了腾讯网的采集和识别规则):

我们接着点击「生成采集设置」:

可以进入到下一步的操作中,在这里可以看到八爪鱼的采集流程:

我们直接「保存并开始采集」:

结果出来的还是一个包含 WebView 的窗口,上面是 WebView 打开需要采集的URL,下方是采集的进度和状态。

窗口中不断打开待采集的URL,最终提示采集完成:

我们导出数据,可以选择导出到本地或是数据库,在这里,我们选择导出本地:

最后导出完成,我们看看实际的效果:

感觉还是不如火车头:

最后

火车头采集器和八爪鱼采集器分别用州的先生博客和腾讯网进行了测试。下面简单进行一下评价吧:

火车头虽然UI界面不友好,配置稍显繁复,但是对州的先生来说,其更加符合个人的使用习惯。

八爪鱼,看起来使用更加傻瓜化,但是完全依赖于「浏览器自动化操作」

效率稍微偏低,而且如果不使用模板(模板得升级会员或付费),自己配置出来的采集结果,也很容易一团糟。

与其如此,不如稍微去掌握一点计算机知识,用火车头会更加好。

你还用过什么数据采集器?欢迎留言讨论?


?分享、点赞、在看,扩散给更多需要的人!?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 州的先生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Highcharts-6-柱状图汇总
本文重点介绍的是可视化库Highcharts的相关基础知识,以及如何利用Highcharts来绘制不同场景和需求下的精美柱状图,主要内容包含:
皮大大
2021/03/01
3.3K0
Highcharts-6-柱状图汇总
Highcharts-12-绘制基础折线图
Highcharts-12-绘制基础折线图 本文中介绍的是如何利用python-highcharts绘制折线图 指定x轴数据标签 显示点值的数据 显示最值和均值的折线图 可缩放的X轴 指定x轴数据标签
皮大大
2021/03/23
1.6K0
Highcharts-12-绘制基础折线图
Highcharts-4-堆叠柱状图
Highcharts-4-柱状图2 本文继续介绍Highcharts中柱状图的制作,主要讲解了3种柱状图的制作: 堆叠柱状图 分组堆叠柱状图 带有百分比堆叠柱状图 垂直堆叠柱状图 效果图 先看下整体的
皮大大
2021/03/01
1.6K0
Highcharts-4-堆叠柱状图
Highcharts快速入门及绘制柱状图
本文重点介绍的是可视化库Highcharts的相关基础知识,以及如何利用Highcharts来绘制不同场景和需求下的精美柱状图,主要内容包含:
皮大大
2021/02/21
3.4K0
Highcharts快速入门及绘制柱状图
新手学HighCharts(一)----基本使用
最近做的项目需要用到数据分析,图表显示,之前做项目的时候用到过highcharts,不过也只是简单的会用而已,然后再网上查了查highcharts的优点:
令仔很忙
2018/09/14
2.4K0
新手学HighCharts(一)----基本使用
Highcharts-3-绘制柱状图
Highcharts-3-绘制柱状图 本文介绍的是如何利用python-highcharts绘制柱状图 水平/垂直柱状图 蝴蝶柱状图 堆叠柱状图 带有负值柱状图 水平/垂直柱状图 图形 首先我们直接看
皮大大
2021/03/01
2.5K0
Highcharts-3-绘制柱状图
新手学HighCharts(二)----对比柱状图的动态加载
上一篇文章 新手学HighCharts(一)—-基本使用 中介绍了highCharts的基本使用,今天给大家介绍对比柱状图的使用,贴张图先:
令仔很忙
2018/09/14
1.2K0
新手学HighCharts(二)----对比柱状图的动态加载
Highcharts-10-饼图颜色设置
实现上面的效果主要是通过'color': 'Highcharts.getOptions().colors[0]方法。当colors[i]中的i取相同的值,则颜色会相同。
皮大大
2021/03/07
2.6K0
Highcharts-9-双饼图绘制
Highcharts-9-双饼图制作 本文中只介绍一种和饼图相关的图形:双饼图 双饼图 效果 代码 # -*- coding: utf-8 -*- """ 说明:制作双饼图 作者:Peter """
皮大大
2021/03/07
1.2K0
Highcharts-7-下钻图制作
下钻表示的是通过层级的方式来展示数据,比如我们想查看国内人口数的占比情况,我们可以先看各个省份的情况,接着我们想看具体某个省中各个地级市的占比,这就是通过下钻方式实现。
皮大大
2021/03/04
1.7K0
Highcharts-7-下钻图制作
R语言实现与Javascript交互的可视化展示
R语言在可视化的展示上具有很强大的功能,并且可以跟很多语言进行结合使用构建交互的可视化图像。今天给大家介绍下在R语言中如何生成基于Javascript的可视化界面。首先需要用的R包是rCharts,大家看下包的安装:
一粒沙
2021/08/23
1.2K0
R语言实现与Javascript交互的可视化展示
pyEcharts 大儿子,会动的柱状图首先登场
pyEcharts 是一款将 Python 和 Echars 结合起来的强大可视化神器,大家近期看到的诸如疫情路线图都可以分分钟实现!是不是已经迫不及待了,接下来小编带领大家一步步走进 pyecharts 的世界,各种神图手到擒来!!
数据山谷
2020/11/24
6510
pyEcharts 大儿子,会动的柱状图首先登场
Highcharts使用的一些总结
Highcharts 是一个用纯 JavaScript 编写的一个图表库, 能够很简单便捷的在 Web 网站或是 Web 应用程序添加有交互性的图表,并且免费提供给个人学习、个人网站和非商业用途使用。
王小婷
2018/08/22
1.1K0
Highcharts使用的一些总结
HightCharts 熟悉不?Python也可以绘制同款~~
今天小编给大家推荐一个超强交互式可视化绘制工具-python-highcharts,熟悉HightCharts绘图软件的小伙伴对这个不会陌生,python-highcharts就是使用Python进行Highcharts项目绘制,简单的说就是实现Python和Javascript之间的简单转换层,话不多说,我们直接进行介绍,具体包括以下几个方面:
DataCharm
2022/05/24
9740
HightCharts 熟悉不?Python也可以绘制同款~~
強大的jQuery Chart组件-Highcharts
Highcharts是一个制作图表的纯Javascript类库,主要特性如下: 兼容性:兼容当今所有的浏览器,包括iPhone、IE和火狐等等; 对个人用户完全免费; 纯JS,无BS; 支持大部分的图表类型:直线图,曲线图、区域图、区域曲线图、柱状图、饼装图、散布图; 跨语言:不管是PHP、Asp.net还是Java都可以使用,它只需要三个文件:一个是Highcharts的核心文件highcharts.js,还有a canvas emulator for IE和Jquery类库或者MooTools类库; 提
张善友
2018/01/22
2.2K0
強大的jQuery Chart组件-Highcharts
【前端统计图】echarts实现简单柱状图项目地址下载:
图片.png <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>五分钟上手之柱状图</title> <!-- 引入 echarts.js --> <script src="js/echarts.min.js"></script> <script src="js/jquery-1.11.3.js"></script> </
王小婷
2018/05/31
1.4K0
Highcharts-8-基础饼图绘制
本文中介绍的是如何在jupyter notebook中通过python-highcharts绘制常见的饼图:
皮大大
2021/03/07
1.9K0
Django教程第5章 | Web开发实战-数据统计图表(echarts、highchart)
echarts方案:通过jQuery自带ajax向服务端发送请求获取折线图、柱状图、饼图数据。
仲君Johnny
2024/01/24
4510
Django教程第5章 | Web开发实战-数据统计图表(echarts、highchart)
「AntV」基于 AntV G2Plot 来实现一个 堆叠柱状图 加 折线图 的多图层案例
最近研究了一下antv/g2的组合图例,并尝试做了一个不算太难的组合图,下面介绍一下整个图里的实现过程。
拿我格子衫来
2023/08/24
1.7K0
「AntV」基于 AntV G2Plot 来实现一个 堆叠柱状图 加 折线图 的多图层案例
G2 基本使用 折线图 柱状图 饼图 基本配置
  1.浏览器引入 <!-- 引入在线资源 --> <script src="https://gw.alipayobjects.com/os/lib/antv/g2/3.4.10/dist/g2.min.js"></script>
用户1197315
2019/05/25
4.9K0
推荐阅读
相关推荐
Highcharts-6-柱状图汇总
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档