Python深受数据科学家和数据工程师的喜爱。
本文总结2017年数据科学的Top12的Python库。
核心库1 numpy
它是最基础库,是众多Python库的依赖库。
它提供了多维数组和矩阵的丰富运算。
2 scipy
它包含线性代数、优化、统计学和数值运算等操作。
3 pandas
它是Python做数据处理的优秀工具。
它可以快速而简单地实现数据操作、数据集成和数据可视化的功能。
它提供两种数据结构:序列和数据框。
数据可视化4 matplotlib
它是Python的数据可视化基础库。
它可以实现你所想的图形,例如:折线图、散点图、柱状图、直方图、饼图、茎叶图、等高图等。
5 seaborn
它是在matplotlib的基础上专注于统计模型结果的可视化。
6 bokeh
它是实现动态化数据可视化效果。
机器学习7 scikit-learn
它是Python的经典机器学习库。
它能够简单地把机器学习算法应用到产品。
深度学习8 tensorflow
它出自Google,开源的深度学习框架。
它采用数据流图计算方式。
9 keras
它是一个开源库,基于高级借口构建神经网络。
它采用tensorflow作为后端。
自然语言处理10 nltk
它是经典的自然语言处理工具。
它可以完成NLP许多任务,例如:文本标记、文本分类、文本分词,名称实体标识、语义推理等。
11 gensim
它是实现向量空间模型VSM和主题模型topic modeling的开源库。
它实现了这些算法,例如:HDP、LSA和LDA等
统计学12 statsmodel
它是利用统计知识进行数据探索的Python开源库。
参考资料:
1Top 15 Python Libraries for Data Science in 2017
您在阅读中,关于数据科学的Python库,有什么需要补充的,请留言。
领取专属 10元无门槛券
私享最新 技术干货