首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

8种寻找机器学习数据集的方法 | 附数据集资源

近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。 通过这些方法,不仅能够找到大量的实验数据集及相关的描述和使用示例。在某些情况下,还会有用于训练数据集的算法代码。...在这里,每个数据集都是一个小的交流社区,可以讨论数据,寻找一些公开的代码,或者在Kernels中创建自己的项目。 有许多数据科学家从不同的角度对数据集进行了分析。...有时候,你还可以找到解决特定问题的算法代码。 传送门: https://www.kaggle.com/datasets 2、亚马逊数据集 ?...这里有许多不同领域的数据集,比如公共交通、生态资源、卫星图像等等。 同时也提供了一个搜索框,来帮助你寻找数据集。伴随着数据集,也有相关的描述与用法示例。...中国国家统计局: http://www.stats.gov.cn/ 8、计算机视觉数据 ? 里面有各种用于计算机视觉研究数据集,可以通过特定的主题去查找数据集,比如语义分割、图像字幕、图像生成等等。

1.2K40

独家 | 为你的数据科学项目提供有力支撑——3个寻找数据集的最佳网站

作者:Angelia Toh,Self Learn Data Science联合创始人 翻译:李海明 校对:冯羽 本文约1000字,建议阅读5分钟 本文为你介绍3个寻找数据集的最佳网站。...标签:冠状病毒,数据,数据科学,数据集,Kaggle 初学数据科学时,你不可避免地需要寻找更多数据来进行练习。这里我们推荐3个最好的找寻数据集的网站,来激发你下一个数据科学项目。...在学习数据科学的旅途中,你一定会需要数据集。...另外,Kaggle的笔记本部分允许用户分享他们的代码和模型,这是非常好的学习资源。我强烈推荐初学者在Kaggle上寻找他们第一个数据科学项目。...只要数据集是线上的,那么你一定能够用Google Dataset Search找到它。 3.Data.gov 在寻找数据集时,你可能会想看看政府公开了哪些数据。

56320
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何使特定的数据高亮显示?

    当表格里数据比较多时,很多时候我们为了便于观察数据,会特意把符合某些特征的数据行高亮显示出来。...【条件格式】位于【开始】选项卡下,常规的用法有“突出显示单元格规则”、“数据条”、“色阶”、“图标集”等,这些我们在前面的文章里都有详细介绍到。...如下图,在选中了薪水列数据之后,点击进行“大于”规则设置: 最终结果如下: 薪水大于20000的单元格虽然高亮显示了,但这并不满足我们的需求,我们要的是,对应的数据行,整行都高亮显示。...2.如何使特定数据行高亮显示? 首先,选定要进行规则设置的数据范围:选定第一行数据行后,同时按住Ctrl+Shift+向下方向键,可快速选定所有数据行。...这里对上面的公式进行一下解释: 公式:=$F2>20000,是什么意思呢,就是判断F2单元格的数据,是否大于20000,如果大于20000,就按照设置的格式进行数据行的显示。

    5.6K00

    寻找海量数据集用于大数据开发实战(维基百科网站统计数据)

    ),我们也在寻找其他海量数据来做更多实战以提高自己,今天介绍的是一个海量数据集的下载方法,以及数据内容的简介; 关于维基百科网站统计数据 数据的下载页面地址:https://dumps.wikimedia.org.../other/pagecounts-raw 今天要下载的数据集就是维基百科的统计数据,如下图,有多个文件下载的连接,每个文件代表一个小时内所有wiki页面被点击的次数,红框中的文件名分为三部分,"20160801...使用迅雷的批量下载功能 这么多数据一个一个下载会很麻烦,可以通过迅雷的批量下载功能来减少工作量; 如下图,在一个下载文件上点击鼠标右键,选择"复制链接地址",即可取到此文件的下载地址: ?...这样就把2016年8月1日的所有统计数据下载下来了,其他日期的数据也可以用此方法批量下载; 数据格式简介 经过漫长等待终于将数据下载下来了,打开看看里面内容,如下所示: aa.b User_talk:Sevela.p.../Archive/Data/Pagecounts-raw 至此,海量数据的下载和格式介绍就全部完成了,后面的章节,我们一起用这份数据来做spark开发,演练大数据技能;

    88260

    寻找商品间的联系:频繁项集挖掘与关联分析

    那么如何能够找到频繁出现被人购买的商品,并且从中抽取出若干件商品的关联关系,这就是我们今天要讨论的问题。 假设已经有了一份数据集,其中的每条记录都是一人次用户购买的商品清单。...使用Apriori算法进行关联:这是一种无监督学习策略 一个项集的支持度:数据集中包含该项集的记录占总记录的比例; 一条规则的置信度(可信度):这条规则出现的次数/记录总数。...我们为每个频繁项集生成关联规则,如果某条规则不满足最小可信度要求,那么所有子集也不满足。 生成关联规则需要:频繁项集列表、包含频繁项集支持数据的字典、最小可信度。...只需对数据集进行两次扫描:第一次对所有元素项的出现次数进行计数,如果某元素是不频繁的,那么包含该元素的超集就是不频繁的,无需再考虑。第二遍只考虑频繁元素。 ?...就是使用新的数据结构去更快处理庞大数据的方法,可以以较快速度发现频繁项集,但这种方法不能发现其中的关系。

    1.3K81

    Spark如何读取Hbase特定查询的数据

    最近工作需要使用到Spark操作Hbase,上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理,但这次有所不同,这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理,简单的使用...Google查询了一下,发现实现方式还是比较简单的,用的还是Hbase的TableInputFormat相关的API。...基础软件版本如下: 直接上代码如下: 上面的少量代码,已经完整实现了使用spark查询hbase特定的数据,然后统计出数量最后输出,当然上面只是一个简单的例子,重要的是能把hbase数据转换成RDD,只要转成...new对象,全部使用TableInputFormat下面的相关的常量,并赋值,最后执行的时候TableInputFormat会自动帮我们组装scan对象这一点通过看TableInputFormat的源码就能明白...: 上面代码中的常量,都可以conf.set的时候进行赋值,最后任务运行的时候会自动转换成scan,有兴趣的朋友可以自己尝试。

    2.8K50

    数据集的划分--训练集、验证集和测试集

    为什么要划分数据集为训练集、验证集和测试集?         做科研,就要提出问题,找到解决方法,并证明其有效性。这里的工作有3个部分,一个是提出问题,一个是找到解决方法,另一个是证明有效性。...前人给出训练集、验证集和测试集 对于这种情况,那么只能跟随前人的数据划分进行,一般的比赛也是如此。...前人没有明确给出数据集的划分 这时候可以采取第一种划分方法,对于样本数较小的数据集,同样可以采取交叉验证的方法。...只需要把数据集划分为训练集和测试集即可,然后选取5次试验的平均值作为最终的性能评价。 验证集和测试集的区别         那么,训练集、校验集和测试集之间又有什么区别呢?...测试集是用于在完成神经网络训练过程后,为了客观评价模型在其未见过(未曾影响普通参数和超参数选择)的数据上的性能,因此测试与验证集和训练集之间也是独立不重叠的,而且测试集不能提出对参数或者超参数的修改意见

    5.3K50

    【数据集】Cityscapes-流行的语义分割数据集

    本文介绍用于智能驾驶场景的语义分割数据集Cityscapes。 1....Cityscapes数据集简介 在几个月的时间里,在 50 个城市的春季、夏季和秋季,主要是在德国,但也在邻近国家/地区,从移动车辆中获取了数十万帧。它们不是故意在恶劣的天气条件下记录的。...对于剩余的 23 个城市,每 20 秒或 20 米的行驶距离(以先到者为准)选择一张图像进行粗略标注,总共产生20,000 张图像。 密集标注的图像被分成单独的训练、验证和测试集。...粗略注释的图像仅作为额外的训练数据。 数据集中包含 19 种常用的类别(详细类别34类)用于分割精度的评估。...两行命令下载Cityscapes数据集 为了使用 City Scapes 数据集,您需要在他们的网站 (https://www.cityscapes-dataset.com/) 上创建一个帐户,然后登录才能下载数据

    1.8K20

    寻找锁定数据库用户的真凶

    前几天,一位兄弟部门的同事,提过来一个问题,有一台开发Oracle数据库服务器,修改了一个应用用户的密码,然后就发现这个账户隔几分钟就会被锁,需要手工unlock解锁才行,但没过一会又被锁了,问了一圈开发人员...x.x.x.24的IP,使用jdbc连接方式连接到这台数据库服务器,准确的说是db2,即RAC的第二个节点。...登录这台x.x.x.24机器,root的home目录下就有一个晃眼的dataSync.jar文件。数据同步?...解压这文件,搜索数据库IP,幸运的发现com/xxx/xxx/xxx/datasync/config/jdbc.properties这个文件,打开看看,有一段正是连接这个RAC节点的配置: jdbc.jdbcUrl...2.Oracle中每个现象是都会有其相应的原因,正所谓因果联系,更不要轻易放过任何一个细节,比如之前要找两个节点的监听日志,比如检索dataSync中有没有文件制定了数据库IP信息。

    1.3K30
    领券