马拉松程序员的专栏

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

话接上回，到新公司也有一个月了，慢慢开始接手和熟悉项目，也开始分配给我一些二次开发的内容。这也是大多数入职到新公司后，从熟悉到接手项目的常规流程。这个时候，你就能发现，这个职位是不是招你来填坑的，以及当前项目的前辈们的代码质量咋样，你有没有在这里发现一点亮眼的代码。

从实践中理解Java的反射

最近好久没更新了，因为年后换了一份新工作，各方面还都需要适应下，不光是生活节奏，上下班时间，重要的是还有所做的项目。新公司是一个做自研B端产品的小公司，主要做面向传统企业和金融企业管理公司现金流的产品。

梦回8年前，重启tomcat

数据下载完成后，解压后的文件名news_sohusite_xml.smarty.dat（迷你版），文件编码是用的GBK。

数据分类：新闻信息自动分类

分类是在一群已经知道类型的样本中，训练一种分类器，让其能够对某种未知的样本进行分类。分类算法的分类过程就是建立一种分类模型来描述预定的数据集或概念集，通过分析由属性描述的数据库元组来构造模型。

数据分析：分类算法和评估

本章节中所涉及的知识点偏向于机器学习的范畴，那么机器学习和数据分析有什么区别呢。简单来讲，数据分析是少量数据采样分析而机器学习是海量数据全部分析。比较好的理解一点是，数据分析会总结过去已经发生的事情，而机器学习是为了预测未来发生的事情。这两者也是有相辅相成的关系。我们可以通过机器学习预测的结果，进行数据分析，得到一个相对准确的结论，辅助人们进行决策判断等等。

数据分析：文本分类

前面章节初步学习数据的采集和一些快速的数据分析方法，如果需要更加深入去做数据分析，那么会使用到更加丰富的知识。自然语言处理（NLP）的其中一个方向就是文本处理。后面两章节将讲解基础的文本分类的知识点，学习完成入门知识点后将在实践中开始数据分析之旅。

数据清洗：文本规范化

本节介绍一个普通流程的爬虫框架——Scrapy，它提供了一个通用性的开发规范，帮助开发者做好了通用性的功能，只需要自定义发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容。在最后的实战项目中，我们将会使用Scrapy来做数据采集并进行深度的数据分析和可视化。

数据获取:认识Scrapy

wordcloud是优秀的词云展示的第三方库，我们可以借助wordcloud轻松实现词云图。使用Wordcloud之前需要先了解它的以下几个特点：

数据可视化：认识WordCloud

数据经过NumPy和Pandas的计算，最终得到了我们想要的数据结论，但是这些数据结论并不直观，所以想要把数据分析的结论做到可视化，让任何其他人看起来毫无压力，那么Matplotlib将派上用场。

数据可视化：认识Matplotlib

Pandas是一个强大的分析结构化数据的工具集，它的使用基础是Numpy，用于数据挖掘和数据分析，同时也具有数据清洗功能。

数据可视化：认识Pandas

NumPy是一个开源的Python数据分析和科学计算库，全称为“Numerical Python”，主要用于数组计算。NumPy是作为数据分析必备库之一，是从事数据分析行业人员必要了解和学习的一个库，下面我们就来一起了解下NumPy。


数据可视化：认识Numpy

数据库，顾名思义，就是存放数据的仓库，它是按照一定的数据结构来组织、存储和管理数据的仓库，是一个长期存储在计算机硬盘中、有组织的、可共享的、统一管理的大量数据的集合。

数据存储：MySql数据库的基本使用

前文中说到，数据分析就是像是做饭一样，在数据获取的内容好比收集食材，通常情况下，食材装备好后是需要有容器存放，有一些是需要立马做饭使用的，就放在盆中，还有一些今天用不上，下次需要的先放到冰箱中。同样，数据也是如此，尤其是爬虫获取的数据，通常是需要保存到本地中，方便下次直接使用。

数据存储：excel文件存放数据

在昨天的demo中的代码还有一个问题就是，假如某个地方出错了怎么办，可能是网络掉线了，可能是某一次请求被拦截了，那么会造成程序直接停掉了。数据量小的爬虫还可以找到错误，重新启动，如果是数据量大的，重跑会造成时间、空间等资源的浪费。所以我们还需要对这个爬虫进行一些改造，增加一些异常处理，使其更加强大。

数据获取：​如何让爬虫更健壮

写好一个爬虫最基本的是做好页面分析，找到链接和规律，这样在写爬虫的时候就可以有方向和目的性。接下来，我们就以爬虫最常用的豆瓣评分TOP250的内容作为爬虫的demo，以此来学习使用相关知识。

数据获取：​如何写一个基础爬虫

Beautiful Soup也有很多版本，不过Beautiful Soup3已经停止更新了，目前最新的都是Beautiful Soup4，而且也已经移植到bs4库中，我们安装bs4库后就可以直接使用。安装库使用pip安装，安装命令：

数据获取：​网页解析之BeautifulSoup

lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath（XML Path Language）解析方式。XPath，它是一门在XML文档中查找信息的语言，具有自身的语法，是用来确定XML文档中某部分位置的语言，最初是用来搜寻XML文档的，当然也适用于HTML文档的搜索。通俗点讲就是lxml可以根据XPath表示的位置来确定HTML页面中的内容，从而实现找到我们需要的内容。

数据获取：​网页解析之lxml

一个网页通常是由HTML元素、CSS样式和JavaScript脚本组成，但是对于数据采集来说，有用的只有HTML元素。通俗一点讲，网页就是一个房子，html就是简单的毛坯，CSS就是给房子来个精装修，Js脚本就是给房子通上了水电。要是把房子的精装修拆除，房子也可以用，就是有点难看，网页也是一样，把CSS样式拿走，内容还在，但是就不太美观。一个网页的大体结构如下：

数据获取：认识HTML代码

谈及到Python爬虫，必不可少的就是requests模块。前面内容中我们也讲到Python有丰富多彩的第三方模块，那么requests就是其中一个，requests模块是一个常用的访问网络的模块。使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（requests的本质也是对urllib3进行了封装）

数据获取：初识Requests

数据分析就是像是做饭一样，正所谓“巧妇难为无米之炊”。数据分析的前提就是数据的获取，只有把食材准备好，经过我们的加工，可以呈现出一道色香味俱全的美味菜肴。所以数据获取是整个数据分析的中流砥柱，数据质量的高低直接导致最终的结果是否准确。

数据获取：去菜市场采购还是自己去地里挖？

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了马拉松程序员的专栏专栏，为你提供了马拉松程序员的专栏的相关文章，致力于帮助开发者快速成长与发展。

马拉松程序员的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐