Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >这些数据获取方式,一般人不知道

这些数据获取方式,一般人不知道

作者头像
IT阅读排行榜
发布于 2018-08-16 08:46:22
发布于 2018-08-16 08:46:22
1.8K0
举报
文章被收录于专栏:华章科技华章科技
在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职场的小年轻,还是需要数据进行分析和研究的同学,能够找到合适的数据源都是非常重要的。特别是想要对一个新的领域进行研究和探索,拥有这个领域的数据那都是有十分重要的意义的。

在这里给大家推荐一些能够用上数据获取方式,有了这些资源,不仅可以在数据收集的效率上能够得到很大的提升,同时也可以学习更多思维方式。

1

公开的数据库

- 国家数据 -

http://data.stats.gov.cn/index.htm

数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,较为全面和权威,对于社会科学的研究不要太有帮助。最关键的是,网站简洁美观,还有专门的可视化读物。

- CEIC -

http://www.ceicdata.com/zh-hans

最完整的一套超过128个国家的经济数据,能够精确查找GDP, CPI, 进口,出口,外资直接投资,零售,销售,以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。

- wind(万得)-

http://www.wind.com.cn/

万得被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

- 搜数网 -

http://www.soshoo.com/

已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。

- 中国统计信息网 -

http://www.tjcn.org/

国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

- 亚马逊aws -

http://aws.amazon.com/cn/datasets/?nc1=h_ls

来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。

- figshare -

https://figshare.com/

研究成果共享平台,在这里你会发现来自世界的大牛们的研究成果分享,同时get其中的研究数据,内容很有启发性,网站颇具设计感。

- github -

https://github.com/caesar0301/awesome-public-datasets

如果觉得前面的数据源还不够,github上的大神已经为大家整理好了一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,简直是做研究和数据分析的利器。

随便上几个图,满满的都是资源啊

2

数据交易平台

- 优易数据 -

http://www.youedata.com/

由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。

- 数据堂 -

http://www.datatang.com/

专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

3

网络指数

- 百度指数 -

http://index.baidu.com/

大家都很熟悉的指数查询平台,可以根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可以作为参考。

- 阿里指数 -

https://alizs.taobao.com/

国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。

- 艾瑞咨询 -

http://www.iresearch.com.cn/

艾瑞作为老牌的互联网研究机构,在数据的沉淀和数据分析上都有得天独厚的优势,在互联网的趋势和行业发展数据分析上面比较权威,艾瑞的互联网分析报告可以说是互联网研究的必读刊物。

- 友盟指数 -

http://www.umeng.com/

友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。

- 爱奇艺指数 -

http://index.iqiyi.com/

爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际情况。

- 猫眼专业版-

http://piaofang.maoyan.com/

电影票房统计分析平台,猫眼专业版有实时的票房统计,影片的排盘情况、上座率和影院数据,对于当前电影的分析是必不可少的。

4

网络采集器

网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容,具有很好的内容收集作用,而且不需要技术成本,被很多用户作为初级的采集工具。

- 火车采集器 -

http://www.locoy.com/

一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据,最常用的就是采集某些网站的文字、图片、数据等在线资源。接口比较齐全,支持的扩展比较好用,懂代码的话,可以使用PHP或C#开发任意功能的扩展。

- 八爪鱼 -

http://www.bazhuayu.com/

简单实用的采集器,功能齐全,操作简单,不用写规则。特有的云采集,关机也可以在云服务器上运行采集任务。

- 集搜客 -

http://www.gooseeker.com/

一款简单易用的网页信息抓取软件,能够抓取网页文字、图表、超链接等多种网页元素,提供好用的网页抓取软件、数据挖掘攻略、行业资讯和前沿科技等。

5

网络爬虫

作为极客们最喜欢的数据收集方式,爬虫高度的自由性、自主性都使其成为数据挖掘的必备技能,当然精通python等语言是必要前提。

利用爬虫可以做很多有意思的事情,当然也可以获取一些从其它渠道获取不到的数据资源,更重要的是帮你打开寻找和搜集数据的思路。

- 利用爬虫爬取网络图片 -

爬取的图像素材

你看到某个网站上的图片恰好是你需要的,但是量大单个下载太麻烦,那么利用爬虫你可以快速地进行抓取,并可以根据标签、特征、颜色等信息进行分类储存。从此不缺设计素材,不缺美女图片,连斗图都多了几分自信。

- 利用爬虫爬取高质量资源 -

爬取的音乐资源

我们总是想快速地去搜集高质量的网络资源,但是人工查找比对实在太麻烦,利用爬虫你就可以轻松解决。比如爬取知乎点赞最多的文章列表,爬取网易云音乐评论最多的音乐,爬取豆瓣网高评分的电影或图书……总之,你可以从此拒绝平庸。

- 利用爬虫获取舆情数据 -

爬取的某招聘网站职位信息

比如你可以批量爬取社交平台的数据资源,可以爬取网站的交易数据,爬取招聘网站的职位信息等,可以用于个性化的分析研究。

总之,爬虫是非常强大的,甚至有人说天下没有不能爬的网站,因而爬取数据也成为了很多极客的乐趣。开发出高效的爬虫工具可以帮助我们节省很多时间,可以完全按照自己的需求来订制,想想这个世界就太美好。

6

小工具

- Web Plot Digitizer -

http://arohatgi.info/WebPlotDigitizer/app/

比如我们在查看期刊文献的时候看到一张成型的图表,但其本身数据是缺失的,你想获得这个图表的相关数据怎么办?有了这个小工具就非常easy了。直接上传我们需要获得数据的图表,如下:

然后我们就会获得如下的数据反馈,感觉运筹帷幄有木有,对于一些不需要十分精确的分析研究足够使用。

当然并不推荐用这个作为量化分析的依赖,对于定性的分析,做ppt级的数据统计分析就足够了。

- you-get -

https://you-get.org/

这是一个程序员基于python 3开发的项目,已经在github上面开源,支持64个网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总之你能想到的网站都有! 还有一个黑科技的地方,即使是名单上没有的网站,当你输入链接,程序也会猜测你想要下载什么,然后帮你下载。

下载优酷视频

批量下载图片

当然you-get要在python3环境下进行安装,用pip安装好后,在终端输入“you get+你想下载资源的链接”就可以等着收藏资源了。

7

数据导航

收集数据是一种能力,学习收集数据也是一种能力,数据的来源是没有穷尽的,转换一种思维,你就可以获得不一样的数据,下面推荐几个可以用到的大数据导航,从这里面你可能会发现一些你自己想要的东西。每个人喜欢的收集数据的渠道不尽相同,只有尽量多地去见识和实践才会发现更多的适合自己的数据获取方式。

- 199IT大数据导航 -

http://hao.199it.com/

- 数据分析网导航 -

http://www.afenxi.com/hao

- 大数据人导航 -

http://hao.bigdata.ren/

在互联网高度发达的今天,数据资源异常的丰富和庞大,如何高效地获取数据成为一种重要的能力,毕竟获取数据是一切用数据说话的前提。当然往往只需要熟练掌握一两种方法,便足够大多数人应付大多数场景和需求,所以选择合适的数据获取渠道还需要亲自探究。

来源:DataCastle数据城堡

END

投稿和反馈请发邮件至holly0801@163.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据获取:去菜市场采购还是自己去地里挖?
数据分析就是像是做饭一样,正所谓“巧妇难为无米之炊”。数据分析的前提就是数据的获取,只有把食材准备好,经过我们的加工,可以呈现出一道色香味俱全的美味菜肴。所以数据获取是整个数据分析的中流砥柱,数据质量的高低直接导致最终的结果是否准确。
马拉松程序员
2023/02/24
2990
数据获取:去菜市场采购还是自己去地里挖?
数据采集:如何自动化采集数据?
举个例子,你做量化投资,基于大数据预测未来股票的波动,根据这个预测结果进行买卖。你当前能够拿到以往股票的所有历史数据,是否可以根据这些数据做出一个预测率高的数据分析系统呢?
慕白
2020/01/02
4.4K0
数据采集:如何自动化采集数据?
一文带你了解Python爬虫(一)——基本原理介绍
1. 企业生产的用户数据: 大型互联网公司有海量用户,所以他们积累数据有天然的优势。有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司: 通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测, 和各行各业的公司进行合作、专家对话(数据积累很多年了,最后得出科研结果)来采集数据。 3. 政府/机构提供的公开数据: 政府通过各地政府统计上报的数据进行合并;机构都是权威的第三方网站。 4. 第三方数据平台购买数据: 通过各个数据交易平台来购买各行各业需要的数据,根据获取难度不同,价格也会不同。 5. 爬虫爬取数据: 如果市场上没有我们需要的数据,或者价格太高不愿意买, 那么就可以招/做一个爬虫工程师,从互联网上定向采集数据。
诡途
2020/10/16
4.1K0
Python爬虫-01:爬虫的概念及分类
1.定义: 搜索引擎用的爬虫系统 2.目标: 把所有互联网的网页爬取下来,放到本地服务器形成备份,在对这些网页做相关处理(提取关键字,去除广告),最后提供一个用户可以访问的借口
py3study
2020/01/19
1.5K0
AI 驱动 + 亮数据赋能:揭秘亚马逊电商数据高效爬取的技术密码
网页抓取 API、网页解锁器 API、抓取浏览器、抓取函数、搜索引擎爬虫等功能一应俱全,无论是常规网页数据提取,还是攻克复杂的反爬虫网站,都能满足开发者多样化的数据需求。此外,亮数据还设有数据集市场,并提供自定义数据集服务,可提供现成或定制化的数据资源。在技术层面,亮数据运用先进的反封锁与验证码处理技术突破障碍,严格把控数据质量,大幅提升开发者的工作效率。
Undoom
2025/05/08
1390
AI 驱动 + 亮数据赋能:揭秘亚马逊电商数据高效爬取的技术密码
C#爬虫知识介绍
爬虫(Web Crawler)是指使用程序自动获取互联网上的信息和数据的一种技术手段。它通常从一个起始网址出发,按照一定的规则递归地遍历网页,并将有用的信息提取出来,然后存储到本地或者数据库中,以供后续分析和使用。爬虫的本质是通过程序模拟了人类在互联网上的浏览、搜索行为,把互联网上的信息主动拉取到自己的数据库中,从而实现全网数据的自动化采集和处理。
明志德道
2023/10/21
4260
C#爬虫知识介绍
基于python-scrapy框架的爬虫系统[通俗易懂]
通用爬虫工作流程: 爬取网页 – 存储数据 – 内容处理 – 提供检索/排名服务
全栈程序员站长
2022/06/27
1K0
基于python-scrapy框架的爬虫系统[通俗易懂]
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家、思想家、政治家、战略家、社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT即数据技术,由数据在推倒人们的衣食住行,当今时代是一个大数据时代,数据从何而来? 企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数 数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所 政府机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克
用户1174963
2018/01/17
3.2K0
python爬虫(一)_爬虫原理和数据抓取
从小白到年薪10万+,优秀的数据分析能力如何速成?
广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单…… 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…… 如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化。 数据分析人才热度也是高居
机器学习AI算法工程
2018/03/09
1.3K0
从小白到年薪10万+,优秀的数据分析能力如何速成?
Python爬虫:爬虫基本概念、流程及https协议
如今,人工智能,大数据离我们越来越近,很多公司在开展相关的业务,但是人工智能和大数据中有一个东西非常重要,那就是数据,但是数据从哪里来呢?
是Dream呀
2024/04/23
1710
🦀️ 后羿采集器——最良心的爬虫软件
2020 年如果让我推荐一款大众向的数据采集软件,那一定是后裔采集器[1]了。和我之前推荐的 web scraper 相比,如果说 web scraper 是小而精的瑞士军刀,那后裔采集器就是大而全的重型武器,基本上可以解决所有的数据爬取问题。
卤代烃
2022/02/23
5.5K0
🦀️ 后羿采集器——最良心的爬虫软件
数据分析实战:从0到1完成数据获取分析到可视化
数据采集顾名思义就是获取数据源的各类数据,它在数据分析和处理中扮演着至关重要的角色。
不吃西红柿
2024/05/28
1.4K0
数据分析实战:从0到1完成数据获取分析到可视化
不懂代码也能爬取数据?试试这几个工具
题图:by watercolor.illustrations from Instagram
猴哥yuri
2020/04/10
4.4K0
不懂代码也能爬取数据?试试这几个工具
从小白到年薪10万+,优秀的数据分析能力如何速成?
广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单…… 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…… 如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化。 数据分析人才热度也是高居
Crossin先生
2018/04/17
9210
从小白到年薪10万+,优秀的数据分析能力如何速成?
AI数据爬虫神器!无脑采集Tiktok shop海量数据,附干货教程
最近DeepSeek大火,对话质量之高一度超过ChatGPT、Claude等主流海外模型。你知道什么决定了大模型训练结果的好坏吗?除了算法外,训练数据的质和量起着决定性作用,而很多AI公司用到的训练数据就是利用爬虫技术从全网抓取的,这也是OpenAI、Anthropic等公司的核心竞争力。
派大星的数据屋
2025/02/12
3880
AI数据爬虫神器!无脑采集Tiktok shop海量数据,附干货教程
又一家数据公司被查,爬虫到底做错了什么?
以上是昨天技术圈传播的一则新闻,又一家数据公司被调查,很多数据从业者、爬虫开发者发出了“感叹” —— 「爬虫用得好,XX进得早;数据玩得溜,XX吃个够」。
Python数据科学
2019/09/10
1.2K1
又一家数据公司被查,爬虫到底做错了什么?
大数据应用导论 Chapter02 | 大数据的采集与清洗
什么是数据采集? 从互联网、传感器和信息系统等来源获取所需要数据的过程。 它是大数据分析流程的第一步。 下图为数据采集在各行业的应用:
不温卜火
2020/10/28
1.8K0
大数据应用导论 Chapter02 | 大数据的采集与清洗
网络爬虫带您收集电商数据
网络爬虫是最常见和使用最广泛的数据收集方法。DIY网络爬虫确实需要一些编程知识,但整个过程比一开始看起来要简单得多。
用户7850017
2021/08/11
1.9K0
网络爬虫带您收集电商数据
33款你可能不知道的开源爬虫软件工具
爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
Python数据科学
2018/08/06
12K0
33款你可能不知道的开源爬虫软件工具
聊一聊数据获取和爬虫
0x00 前言 为什么要把数据获取、爬虫放在一起来聊呢? 居士是想成为一名数据科学家的!数据科学家就要具备很多的技能,什么统计学、数据挖掘、数据仓库、大数据计算、数据可视化等等。 但是,首先我们要有数据,没有数据我们玩什么?想要玩数据,我们就要来聊一下数据获取,数据获取有很多途径,爬虫算是其中最自力更生的技能了,而实现爬虫又和图论的知识有很深的联系,因此在聊得时候还要顺便聊一下图论。 0x01 数据获取 我们站在个人的角度看一下数据获取,我们会有几个比较简单的数据获取途径: 公司提供的数据 网上下载的免费数
木东居士
2018/05/25
8520
推荐阅读
相关推荐
数据获取:去菜市场采购还是自己去地里挖?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档