前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >【Python】从爬虫小白到大佬(一)

【Python】从爬虫小白到大佬(一)

作者头像
风中的云彩
发布2025-01-20 19:03:58
发布2025-01-20 19:03:58
1140
举报
文章被收录于专栏:C/C++的自学之路C/C++的自学之路

爬虫简介

1. 网络爬虫,是一种按照一定的规定,自动抓取互联网信息的程序或者脚本。 2. 爬虫运行原理:先获取数据,再处理数据,最后存储数据

网页简介

1. 网址,又称统一资源定位符(URL), 用于标识资源在网络上的地址。 2. 一个网址通常由:网络协议类型、域名、资源在服务器中的位置组成。 3. 网址内有时还存在锚点#...,用于快速定位页面内容

浏览器上网原理 

1. 用户向浏览器输入网址。 2. 浏览器根据我们的网址,找到对应域名的服务器,向服务器发送请求获取资源。 3. 服务器收到请求后做出响应,把资源交给浏览器。 4. 浏览器加载资源并呈现给用户。

开发者工具 

1. 推荐使用谷歌浏览器Ctrl+shift+I,便捷打开开发者工具

元素面板 
网络面板

1. 网络面板记录了发生在该页面的所有请求---响应。 2. 网络面板主要包括:功能区、筛选区、请求列表区。 3. 功能区主要关注:clear(清除)、Preserve log(保留请求记录)两个功能。 4. 筛选区主要关注:All(全部)、Others(其他)等标签。 5. 请求列表区:当开发者工具捕捉到新的请求时,会成列在请求列表区;在请求列表区,可以观察到:请求名,请求状态,请求类型。 6. 点击name,会在右边的标头的常规部分了解到:请求网址,请求方法,状态码

响应状态码

1. 面对浏览器发送过来的请求,服务器都会做出相应,而响应状态码可以反应出本次响应的状态。  2. 如果出现客户端错误,则返回404,并且将网页跳转至: https://web.shanbay.com/codetime/home/404 3. 网址弹出404,可能是用户输错了URL,也可能是开发者将资源移动到了其它位置

HTML文档 

1. HTML文档,即超文本标记语言,是计算机语言的一种,用来结构化Web网页及其内容

HTML基本语法 

1. HTML文档元素构成,元素由三部分组成:开始标签、元素内容、结束标签。 2. p元素:段落h元素:标题a元素:超链接。 3. 元素的属性需要在元素的开始标签中标注,写成属性名称="属性值"的形式,如果一个元素有多个属性,属性与属性之间需要用一个空格隔开。 4. href属性用于描述超链接的属性href=''....''。 5. target属性默认值为_self,表示在当前页面打开链接;还可以改成_blank,表示会在浏览器新标签页打开链接。 6. class、id属性都是用来标识元素的,是元素的共同属性class可以重复出现,而id唯一的。 8. HTML中用img元素描述图片img元素有两个特殊属性,一个是src(图片来源属性),值是图片资源对应的URL;另一个是alt(用于替换的文本)属性,当用户无法查看图片时,浏览器会读取alt属性值,作为图片内容的替代信息展示给用户。 9. img元素只有开始标签,属于空元素;此外还有换行符br元素水平分割线hr元素都是空元素。 10. 浏览器在解析HTML文档时,会忽略所有多余的空格、换行符,但是可以用&nbsp字符解决这个问题。 11. code元素用来描述代码。 12. 有序列表由外层ol元素(有序列表)内层li元素列表项构成;无序列表则是由外层ul元素(无序列表)内层li元素构成的。

HTML结构 

1. 元素面板第一行的!<DOCTYPE html>表明该文件是HTML文档,便于浏览器正确解析,没有实际含义。DOCTYPE之后的整个网页内容都包裹在html元素中。如此一来,网页内所有元素都是html元素的子元素,因此,html元素也被称为根元素。 2. 再往内部看,根元素最粗壮的两个分支,一个叫head元素,另一个叫body元素。它们分别是网页的网页头网页体

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 爬虫简介
  • 网页简介
  • 浏览器上网原理 
  • 开发者工具 
    • 元素面板 
    • 网络面板
  • 响应状态码
  • HTML文档 
    • HTML基本语法 
    • HTML结构 
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档