前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大家都是在哪些网站找数据?

大家都是在哪些网站找数据?

作者头像
庄闪闪
发布于 2022-10-31 02:01:49
发布于 2022-10-31 02:01:49
1.2K0
举报

简介

对于统计专业的学生/学者,除了对统计理论/方法的学习之外,我们也应该有产生和获取数据的能力。而不能闭门造车,仅仅做一些理论的内容。小编认为更应该从实际出发(数据出发),观察数据中存在的问题,进而使用一些统计理论解决问题。

上面的话主要从统计大咖们的讲座中受到启发。于是,我也开始以这种思维进行科研和学习。

下面分享一些,自己“存”的数据以及可以获得数据的开源网站。

GitHub——Awesome Public Datasets[1]

该仓库收藏量高达 51k,可想而知它的影响力有多大了吧。内部包含各个领域的开源数据。目录可见下面照片:

小编暂时还没有探索这么多的数据集。有兴趣的读者可以自行探索~

Kaggle——datasets[2]

Kaggle 中给了很多开源的数据集,并且有很多数据集都被人探索过,也会分析一些分析代码。读者可以根据大佬们的代码,逐步实现/学习。

类似的数据竞赛网站还包括:DataCastle[3]天池[4]Datafountain[5]等。

UCI——数据仓库[6]

该网站目前维护了 622 个经典的机器学习数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集(截止今天)。

博客——数据科学的100个开源数据集[7]

这篇博客给出了数据科学开源的 100 个数据集,感兴趣也可以看看。

NASA——Open Data[8]

小编的研究方向偏工业工程,这里推荐下 NASA 的网站,里面包含了很多工业数据集。很多研究都是基于这些数据集进行的。

小编有话说

这里小编只是简单罗列了下,可以获取数据的一些网站。当然你也可以通过其他方式获得数据,例如:国家数据[9]世界银行公开数据[10]中国统计信息网[11]国家统计局[12]世界银行[13]WTO[14]美国政府开放数据[15]等。

知乎上也有类似问题与回答[16],可供参考。

当然不同领域可能会有自己的数据库/网站等。如果读者愿意分享出来,欢迎文末留言,让信息开源,共享给更多人吧~

参考资料

[1]

Awesome Public Datasets: https://github.com/awesomedata/awesome-public-datasets

[2]

datasets: https://www.kaggle.com/datasets

[3]

DataCastle: https://www.datacastle.cn/index.html

[4]

天池: https://tianchi.aliyun.com/

[5]

Datafountain: https://www.datafountain.cn/

[6]

数据仓库: https://archive.ics.uci.edu/ml/datasets.php

[7]

数据科学的100个开源数据集: https://medium.com/analytics-vidhya/top-100-open-source-datasets-for-data-science-cd5a8d67cc3d

[8]

Open Data: https://data.nasa.gov/browse

[9]

国家数据: http://data.stats.gov.cn

[10]

世界银行公开数据: http://data.worldbank.org.cn

[11]

中国统计信息网: https://www.cnstats.org/

[12]

国家统计局: stats.gov.cn/

[13]

世界银行: https://databank.worldbank.org/home.aspx

[14]

WTO: http://stat.wto.org

[15]

美国政府开放数据: http://Data.gov

[16]

问题与回答: https://www.zhihu.com/question/27692329

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 庄闪闪的R语言手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
【揭秘】为什么程序员喜欢用大量的if else而偏不用switch!
说来也是巧最近在看 Dubbo 源码,然后发现了一处很奇怪的代码,刚好和这个 switch 和 if else 有关!
Java程序猿
2021/04/05
7550
一文告诉你CPU分支预测对性能影响有多大
来源于stackoverflow上的一个问题为什么处理有序数组比处理无需数组快,原文中已经有了一些探讨,这里我们首先来复现下结果,然后再解释下为什么!
xindoo
2021/01/21
1.7K0
Rust为什么放弃Switch结构
今天我们还是继续来聊高并发的话题,我们知道Swich分支是一个非常有用的语法,这是一个可以回溯到上世纪的Pascal、C等经典语言的分支结构,主要的作用就是判断变量的取值并将程序代码送入不同的分支,这种设计在当时的环境下非常的精妙,但是在当前最新的CPU环境下,却会带来很多意想不到的坑。
beyondma
2021/08/14
1.1K0
虽然是高手过招的杀手锏,但是对写业务代码没有任何卵用。
这篇文章给大家盘一下“分支预测”这个听起来玄乎,但是对写业务代码没有任何卵用的小技巧。
why技术
2024/03/18
2050
虽然是高手过招的杀手锏,但是对写业务代码没有任何卵用。
全网最详细的Intel CPU体系结构分析(内核源码)
前段meldown漏洞事件的影响,那段时间也正好在读Paul的论文关于内存屏障的知识,其中有诸多细节想不通,便陷入无尽的煎熬和冥想中,看了《计算机系统结构》、《深入理解计算机系统》、《大话处理器》等经典书籍,也在google上搜了一大堆资料,前前后后、断断续续地折腾了一个多月,终于想通了,现在把自己的思想心得记录下来,希望对有这方面困惑的朋友有些帮助。
嵌入式Linux内核
2022/09/22
1.1K0
全网最详细的Intel CPU体系结构分析(内核源码)
手机遇到性能BUG怎么破?
目前手机SOC的性能越来越少,很多程序员在终端程序的开发过程中也不太注意性能方面的优化,尤其是不注意对齐和分支优化,但是这两种问题一旦出现所引发的问题,是非常非常隐蔽难查的,最终几个问题得到了圆满解决。
beyondma
2021/10/23
4900
处理器结构--分支预测(Branch Prediction)
条件分支指令通常具有两路后续执行分支。即不采取(not taken)跳转,顺序执行后面紧挨JMP的指令;以及采取(taken)跳转到另一块程序内存去执行那里的指令。是否条件跳转,只有在该分支指令在指令流水线中通过了执行阶段(execution stage)才能确定下来。
None_Ling
2018/10/24
3.4K0
处理器结构--分支预测(Branch Prediction)
远看像乱序执行,近看是内存屏障的BUG是如何被解决的
前几天我发布了《Serverless时代Rust将迎春天》后,针对热心读者的回复针对他所提出的问题我又总结了一些文章,其中我对于多并发操作,结果却还是0的情况给出了多核竞争冲突的解释,结果一石击起千层浪,再次收到很多热心读者的反馈,其中有几个回复特别值得一说。
beyondma
2021/07/11
7180
远看像乱序执行,近看是内存屏障的BUG是如何被解决的
Java volatile修饰符的用法及作用详解版
1、               内存访问操作/指令执行操作的乱序:假设每个CPU都分别运行着一个会触发内存访问操作的程序。那么对于这样一个CPU,其内存访问顺序是非常松散的,在保证程序上下文逻辑关系的前提下,CPU可能乱序执行内存操作。此外,编译器也可以将它输出的指令安排成任何它喜欢的顺序,只要保证不影响程序表面的执行逻辑。这里就涉及到了两次可能发生指令重排的情况:一个是编译的时候,由编译原理的知识知道,编译器会对代码进行优化,这一步就涉及到指令重排,当然,编译完成之后的目标代码中指令的顺序就是确定的,不同线程执行该代码的顺序是一样的;另一个就是CPU在执行具体的指令的时候,也会因为计算机当前的状态(比如寄存器的占用情况、ALU的使用情况,cup缓存层的存在等原因)的不同导致指令最终的执行顺序发生变化(实际上,cpu本身并不会对指令进行重排,它本身是按照编译后的顺序来执行指令的,只是由于执行不同的指令需要的时间长短不同,以及缓存层的存在,再加上CPU执行指令的流水线并不是串行化等因素,那么就有可能出现排在靠前位置的指令还没执行完,而排在靠后的指令已经执行完了的情况,这一情况就是所谓的CPU执行指令的乱序,具体原因后面会更详细地解释),尽管这个变化可能不影响最终结果的正确性。
saintyyu
2021/11/22
6030
Java volatile修饰符的用法及作用详解版
计算机指令的流水线执行与流水线冒险
不要等待计算结果保存到目的寄存器,增加一条额外数据通路,将计算的结果直接传给下一条指令计算的输入
叶茂林
2023/11/19
5310
计算机指令的流水线执行与流水线冒险
从洗衣机的故事中理解计算机的工作原理:优化指令执行速度
CPU执行一条指令也是类似的操作:取址-》解码-》执行,不断重复。此时一条指令需要三个时钟周期才能完成(取址,解码,执行)。
北洋
2023/09/22
2990
CPU的价值
一种提升性能的方法叫 "指令流水线",想象下你要洗一整个酒店的床单,但只有 1 个洗衣机, 1 个干燥机。
硬核编程
2019/08/19
7330
C++大厂面试真题宝典 精选100道
通过汇编视角分析,可以直观看到优化如何影响指令流水线、内存访问模式和CPU资源利用率,这是理解性能瓶颈的关键。
用户11659095
2025/05/30
540
CPU摸鱼被抓,上了一个新技术!
我叫阿Q,是CPU一号车间里的员工,我所在的这个CPU足足有8个核,就有8个车间,干起活来杠杠滴。
轩辕之风
2023/09/05
1700
CPU摸鱼被抓,上了一个新技术!
少写点if-else吧,它的效率有多低你知道吗?
我要再和生活死磕几年。要么我就毁灭,要么我就注定铸就辉煌。如果有一天,你发现我在平庸面前低了头,请向我开炮。
C语言与CPP编程
2021/03/25
9860
少写点if-else吧,它的效率有多低你知道吗?
CPU性能分析与优化(二)
大多数现代体系结构可以归类于基于寄存器的loadstore架构,其中操作数明确指定,内存只能通过load/store来访问。除了基本的load store control 标量算术操作(使用整数和浮点型),当前ISA还在增加新的计算模式。vector处理 Intel整了AVX系列,ARM整了SVE,RISC-V整了V extension,matrix/tensor Intel还整了AMX。通常使用这些高级指令,软件的速度会有数量级的提升。
王很水
2024/08/06
3230
CPU性能分析与优化(二)
Canvas CPU漏洞武器化工具大揭秘
外部有报道称出现了CPU漏洞spectre的在野利用,各项证据均指向为Immunity Canvas商业渗透框架里面的spectre CPU漏洞攻击模块被上传到了VirusTotal,由此揭开了spectre武器化工具的神秘面纱。2018年披露的spectre和meltdown CPU漏洞影响范围广泛,但由于修复困难、修复方案影响性能、没有出现武器化工具而一直被轻视。恰巧Blade Team在CPU漏洞方面有一些研究和积累,有幸获得一份Immunity Canvas,于是开始对spectre武器化工具抽丝剥茧,一探究竟,希望能够引起大家对CPU漏洞的重视。
腾讯安全应急响应中心
2021/03/15
5760
Canvas CPU漏洞武器化工具大揭秘
为什么处理排序的数组要比非排序的快
以下是c++的一段非常神奇的代码。由于一些奇怪原因,对数据排序后奇迹般的让这段代码快了近6倍!!
云扬四海
2019/06/05
5380
为什么处理排序的数组要比非排序的快
浅谈CPU 并行编程和 GPU 并行编程的区别
CPU 的并行编程技术,也是高性能计算中的热点,那么它和 GPU 并行编程有何区别呢? 本文将做出详细的对比,分析各自的特点,为深入学习 CPU 并行编程技术打下铺垫。 区别一:缓存管理方式的不同 •GPU:缓存对程序员不透明,程序员可根据实际情况操纵大部分缓存 (也有一部分缓存是由硬件自行管理)。 •CPU:缓存对程序员透明。应用程序员无法通过编程手段操纵缓存。 区别二:指令模型的不同 • GPU:采用 SIMT - 单指令多线程模型,一条指令配备一组硬件,对应32个线程 (一个线程束)。 • CPU:采
企鹅号小编
2018/02/01
1.5K0
人生充满选择,编程也是
人生在世,我们每天都需要进行三项重大选择:早餐吃什么,午餐吃什么,晚餐吃什么。这一度让我感到非常为难,于是我养成了一个习惯,只要在附近的餐馆发现了几种还不错的食物,我就会连续一段时间一直吃它们,直到吃腻,再尝试一下别的选择,直到又发现还比较对胃口的,就再一直吃,如此循环往复。
Sheepy
2018/09/10
6240
相关推荐
【揭秘】为什么程序员喜欢用大量的if else而偏不用switch!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档