准备开个帖子收藏在 GitHub 上与 Python 相关的有趣、实用的项目,打算每周更新一次。如果你发现有什么好玩的项目,欢迎推荐给我呀,给我发消息或者后台留言都可以。我 GitHub 账号是 GangLi-0814 ,欢迎前往我的主页查看或者 follow 。其实,PyStaData 公众号文章的所有代码和数据,以及原始的 md 文件我都传到了 GitHub 上。如果网络访问不太方便,也可以去码云(我的账号是 mudaozzz ) 查看,我会定期把内容同步过去。
目前最新的共享单车公开数据可能只有深圳市政府数据开放平台[1]发布的共享单车企业每日订单表了,数据量包含2017-04-03到2021-08-30的 2.4 亿条数据,总计约 24G 大小:
Week_03: 04.06 - 04.12 库名称 用途 项目主页 geemap 在 Jupyter 中嵌入交互式地图 https://github.com/giswqs/geemap ipyleaflet 在 Jupyter 中嵌入入交互式地图 https://github.com/jupyter-widgets/ipyleaflet ipympl 绘制交互式 Matplotlib 图 https://github.com/voila-gallery/ipympl voila-gridstack 基于
上期深圳市共享单车数据分析【文末附共享单车数据集清单】[1]简单分享了如何使用共享单车数据进行数据分析,有很多人问如何才能获取数据,以及没学过Python,如何获取?
compile group: 'com.googlecode.juniversalchardet', name: 'juniversalchardet', version: '1.0.3'
https://opendata.sz.gov.cn/data/dataSet/toDataDetails/29200_04300771
(图文无关) 昨天在微信收到一个大文件,73M,突然意识到,微信升级,终于冲过了30M的文件传输限制。接下来的问题,这是一个开发工程文件,要在电脑开发环境使用,怎么把这个文件传输到电脑? 正常的方式是在电脑登陆电脑版微信,然后手机上转发到“文件传输助手”,电脑上就可以收到,然后重新下载。------不过这里有两个小障碍,如果这时候没有外网怎么办?如果网速很慢怎么办?如果是规范的文件,比如视频,比如图片,还可以用苹果的airdrop技术快速的传出来,对了,IOS11的airdrop已经有了中文名,叫“隔
Week_04: 2020.04.13 - 2020.04.19 项目名称 用途 项目主页 colour 颜色表示转换 https://github.com/vaab/colour SnowNLP 处理中文文本 https://github.com/isnowfy/snownlp xlsxwriter 操作 Excel 文件的工具 https://github.com/jmcnamara/XlsxWriter Office_Automation_by_Using_Python 实现 Office 自动化案例
这种方法需要用户授权同意之后才能获取到,并且获取到的头像url并不能存到数据库中保存读取使用,因为链接是不固定并且不能外网访问的
本文为“GIS数据获取整理”专栏(https://blog.csdn.net/zhebushibiaoshifu/category_10857546.html)中第九篇独立文章,按规矩本文全部标题均应由“9”开头;但是由于本文是对综合GIS数据获取网站加以汇总,因此想了想还是决定将标题编号用“0”开头。本文对目前主要的综合GIS数据(即一个网站中,拥有例如遥感、气象等两个或两个以上GIS领域数据)获取网站加以整理与介绍,若需其它GIS领域方向的专门数据(如遥感影像数据、气象数据、土地土壤数据、农业数据等),大家可以点击上方专栏查看,也可以看这一篇汇总文章:https://blog.csdn.net/zhebushibiaoshifu/article/details/114401239。
如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。
相信很多小伙伴在做数据分析或者可视化的时候,经常会遇到——方法工具都有了,但是数据,数据,数据没有啊!
1.前端后台管理会存在很多表格,表格数据过多就需要分页; 2.前端交互每次搜索如果都请求服务器会加大服务器的压力,所以在数据量不是很大的情况下可以一次性将数据返回,前端做检索 3.下面贴上一个demo
Week_05: 2020.04.20 - 2020.04.26 项目名称 用途 项目主页 python-docx 创建和编写 Word 文档 https://github.com/python-openxml/python-docx pdfshift 调用 PDFShift API 将 HTML 转换为 PDF https://github.com/pdfshift/pdfshift-python automate_excel Excel 自动化 https://github.com/chrispchar
今天我们继续GIS获取网站的整理,本次为行政区边界数据与各类城市要素数据,包括路网数据、建筑轮廓数据、POI数据与移动基站数据等。这些数据对于空间分析,尤其是基于城市、社会要素的空间分析而言是十分重要的。另一方面,大家在获取数据时,尤其是通过国外网站获取数据时,一定需要注意边境、领土问题。
本数据集包含深圳的航线预报信息,含有航线名称、预报时间、风浪等基本气象信息。可用于分析预报时间与气象条件的关系。
本数据包含2020年12月的高速公路ETC入深圳记录。可用于分析车型、收费站口地点、车牌等信息的分布和关系。
本次我们继续GIS数据获取的整理,今日主题为人口、共享单车与地铁数据。人口是很多GIS应用领域都会用到的数据之一,无论是人口密度、人口数量还是人口流动,都具有着很大的应用前景;而共享单车、地铁数据同样也是城市研究中的重要数据。
开放数据源可以从两个维度来考虑:一个是单位的维度,比如政府、企业和高校。二是行业的维度,比如交通、旅游、金融等领域。
当我们谈到「上色」时,在人工智能语境里这意味着将线稿的风格转换为彩色漫画风格,其重要之处在于:
本文将以DCIC2020赛道二《巡游车与网约车运营特征对比》为具体内容,讲解赛题介绍、赛题理解、赛题任务解析、赛题数据介绍和赛题指标计算。
坑爹的baidu出来好多关于微信小程序云开发获取手机号码的例子还都是需要通过code获取sessionkey来解密信息取得手机号码,总感觉哪里不对,企鹅都说了,云开发是自动鉴权的,不应该还要解密啊。于是,试呀试呀,终于试出了正确的通过云函数获取手机号码的流程。 具体如下: 1,页面 cellphone.wxml
关于汽车的项目很多,比如拍照识车、汽车比价等等,尽管这些项目本身难度不大,但是往往受制于数据集的质量,模型的效果不能很好的发挥。
点击标题下「大数据文摘」可快捷关注 什么是开放数据? 一个简单的回答是:互用性。互用性指的是不同系统和组织间协同工作 (协同操作) 的能力。在这里,它指的是协同操作或者混合不同数据集的能力。 我们采用「开放知识定义」来定义开放数据: 开放数据是一类可以被任何人免费使用、再利用、再分发的数据——在其限制上,顶多是要求署名和使用类似的协议再分发。 完整的「开放知识定义」对于这一定义给出了更为翔实的解释。这里总结出最关键的部分: 可获取性和可访问性:作品应当能够被完整获取,并且所需的花费应当不超过合理的重制
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 由于档期限制,我们经常会看到动画由于制作时间紧张而出现作画崩坏的情况。来自苏州大学的研究者们提出的 Style2paints 或许可以帮助我们缓解这样的情况,这种工具可以使用 AI 技术为黑白线稿快速自动上色。在最近推出的 2.0 版中,研究人员使用了完全无监督的生成对抗网络(GAN)训练方法大幅提高了上色的准确性。Style2paints 的作者表示,该工具在精细度、漫画风格转换等方面超越了目前其他所有工具。 GitHub 链接:htt
机器之心报道 参与:蒋思源、李泽南 由于档期限制,我们经常会看到动画由于制作时间紧张而出现作画崩坏的情况。来自苏州大学的研究者们提出的 Style2paints 或许可以帮助我们缓解这样的情况,这种工具可以使用 AI 技术为黑白线稿快速自动上色。在最近推出的 2.0 版中,研究人员使用了完全无监督的生成对抗网络(GAN)训练方法大幅提高了上色的准确性。Style2paints 的作者表示,该工具在精细度、漫画风格转换等方面超越了目前其他所有工具。 GitHub 链接:https://github.com/l
Awesome Chatbot Github:https://github.com/fendouai/Awesome-Chatbot Chatbot ParlAI A framework for tr
点击标题下「大数据文摘」可快捷关注 主题:开放数据创新在商业中的启航 时间:2014年10月20日 19:00 ~ 21:00 地点:上海杨浦·复旦大学美国研究中心104室 限额:200人 点击文末“阅读原文”即可报名 主讲:Joel Gurin 《即刻开放数据》(open data now) 作者,纽约大学政务实验室高级顾问,并主持开放数据500研究项目,调研企业是如何利用开放政府数据作为核心资源开展商业活动的(OpenData500.com).他曾经在消费者联盟和消费者报道担任主编以及执行副总裁。也曾
今天我们继续进行GIS数据获取网站的整理,本次主题为GPS轨迹与签到数据。GPS数据是空间分析中常用的数据资源,尤其是出租车、公交车轨迹数据,不需要用的时候还好,一旦需要了却发现免费、开源且高质量的数据很少,或者是找不到满足自己研究需要的数据等等。另外,本次主题中的社交软件签到数据、手机信令数据等,也是比较新颖、很具有研究价值的。
作者:张家林 本文约5300字,建议阅读10分钟个人数据开发利用新范式的主要问题是要解决好开放、隐私和安全。 个人数据开发利用的“不可能三角”是指在个人数据开发利用中,不可能同时满足开放、隐私和安全这三个目标;与此同时,其中任何一个目标都对其他两个目标产生影响,从而无法独立的实现各自目标。 个人数据开发利用的旧范式是App应用服务商向个人提供服务,个人向App应用服务商提供或生产个人数据。App应用服务商通过处理、交易个人数据,从而获得直接或间接收益。在过去几十年中,这种范式处于主导地位。自2016年欧盟推
深度学习已经在气象领域显示出很好的应用前景,并且已经在降水短临预报、雷达图像生成、锋面检测等方面取得了不错的进展。为了更有效的训练和验证这些复杂的算法,需要大量多样化的高分辨率数据集。目前有很多公开的PB级天气数据,比如静止气象卫星、天气雷达等。然而,这些数据集的大小和复杂性阻碍了深度学习模型的训练。为了解决此问题,引入了雷暴事件图像数据集(Storm EVent ImagRy, SEVIR)。此数据集包含了来自多个传感器的时空一致的数据。除了数据集外,还提供了深度学习模型作为基准模型和模型评估指标,以进一步加速深度学习新算法的创新。
首先上实现效果的视频:https://v.qq.com/x/page/x3021yp3u3a.html
本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。
值得注意的是,它并不像大多数机械手一样,只依靠“手指”来活动,而是将手掌与手指结合,无论是手形还是动作,都更接近人类。
在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。
小程序自带的tabBar可以参考这篇文章:https://codeboy.blog.csdn.net/article/details/123040278
数据集相对于机器学习而言是至关重要的,可以说好的数据集是成功的一半。但是,我们很难找到一个特定的数据集来解决各种机器学习问题,甚至是进行实验。因而找到合适的数据集是一件很难的事情,接下来我们就盘点一下一些优质的数据集资源,或许会帮到你哦。
Linux 内核模块在概念和原理层面与动态链接模块(DLL或so)类似。但对于 Linux 来说,内核模块可以在系统运行期间动态扩展系统功能,而无须重新启动系统,更无须重新编译新的系统内核镜像。所以,内核模块这个特性为内核开发者提供了极大的便利,因为对于号称世界上最大软件项目的Linux来说,重启或重新编译的时间耗费肯定是巨大的。
加拿大陆地卫星得出的1985-2020年森林采伐扰动情况 本产品所包含的年度森林变化数据是全国性的(整个森林生态系统),代表了加拿大在30米空间分辨率下的墙到墙的采伐特征。信息成果代表了加拿大森林36年的采伐变化,来自一个单一的、一致的、空间明确的数据源,以完全自动化的方式得出。这种在捕捉人类影响的分辨率下描述森林特征的能力,对于从管理和科学的角度建立详细监测森林生态系统的基线至关重要。Landsat数据的时间序列被用来描述1985-2020年期间加拿大6.5亿公顷森林生态系统中由野火和采伐造成的林木替代森林干扰的国家趋势。前言 – 床长人工智能教程
数据是驱动科技发展的源泉,平时我们科研中也经常需要在各种开源数据上验证自己模型的效果。那时间序列目前可以使用的开源数据集有哪些呢?本期为大家做一次较为全面的整理汇总。
React Native(以下简称 RN)目前在 Shopee 前端团队得到大量应用。RN 虽然有很多优势,但是其开发和调试流程与 Mobile Web 相比却不那么友好,特别是在运行时的调试。
要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。
近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。
近年来,人工智能快速发展,相关的框架、算法等层出不穷,要检验一个算法的好坏,就需要用有关的数据集进行实验,那么我们要去哪里找相关的数据集呢?下面列举几个人工智能方面的公共数据集,希望对大家有所帮助。
住在西雅图,最近搬到了另一个社区。根据Walk Score的专有算法,从第9个最适合步行的西雅图街区搬到了第30个街区。仍然可以轻松地走到当地的咖啡馆和理发店,但那就是它!可以说已经搬到了一个相当不那么适合步行的社区,但目前还不清楚如何量化其规模或者步行性得分。
日报君 发自 凹非寺 量子位 | 公众号 QbitAI 大家好哇,本周已经过半,最近科技圈发生了哪些大事? 我们一起来看~ AlphaFold 2复现版来了:略优于原版,代码已开源 哥伦比亚大学系统生物学助理教授Mohammed AlQuraishi,最近发布了AlphaFold 2的PyTorch复现版OpenFold。 他表示,相较于DeepMind公开的JAX版本,这一用PyTorch的方法在训练等方面更有优势。 比如在推理1500个残基以下的序列时,速度可以更快; 推理超长蛋白质链时,使用内存更
UA-DETRAC是一个具有挑战性的现实世界多目标检测和多目标跟踪基准。数据集由 Cannon EOS 550D摄像头在中国北京和天津24个不同地点拍摄的10个小时的视频组成。视频以每秒25帧的速度录制,分辨率为960540像素。在UA-DETRAC数据集中,有超过14万帧和8250辆车被人工标注,总共标记了121万物体的边界盒。我们还对目标检测和多目标跟踪方面的最新方法进行基准测试,以及本网站中详细介绍的评估指标。
全球固定宽带和移动(蜂窝)网络性能,分配给缩放级别 16 的网络 mercator 瓷砖(赤道处约 610.8 米乘 610.8 米)。数据以 Shapefile 格式和 Apache Parquet 格式提供,几何图形以 EPSG:4326 中的已知文本 (WKT) 表示。下载速度、上传速度和延迟是通过 Android 和 iOS 版的 Ookla 应用程序 Speedtest 收集的,并对每个磁贴求取平均值。测量结果经过筛选,包含 GPS 质量的定位精度。
领取专属 10元无门槛券
手把手带您无忧上云