Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爬虫系列-网页是怎样构成的

爬虫系列-网页是怎样构成的

作者头像
用户10002156
发布于 2023-08-07 03:11:29
发布于 2023-08-07 03:11:29
26400
代码可运行
举报
文章被收录于专栏:生活处处有BUG生活处处有BUG
运行总次数:0
代码可运行

背景

最近在学爬虫技术,顺便记录一下学习的过程,供各位小伙伴参考。

网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。

网页是怎样构成的

爬虫程序之所以可以抓取数据,是因为爬虫能够对网页进行分析,并在网页中提取出想要的数据。在学习 Python 爬虫模块前,我们有必要先熟悉网页的基本结构,这是编写爬虫程序的必备知识。

如果您熟悉前端语言,那么您可以轻松地掌握本节知识。

网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JavaScript(简称“JS”动态脚本语言),它们三者在网页中分别承担着不同的任务。

  • • HTML 负责定义网页的内容
  • • CSS 负责描述网页的布局
  • • JavaScript 负责网页的行为

HTML

HTML 是网页的基本结构,它相当于人体的骨骼结构。网页中同时带有“<”、“>”符号的都属于 HTML 标签。常见的 HTML 标签如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<!DOCTYPE html> 声明为 HTML5 文档
<html>..</html> 是网页的根元素
<head>..</head> 元素包含了文档的元(meta)数据,如 <meta charset="utf-8"> 定义网页编码格式为 utf-8<title>..<title> 元素描述了文档的标题
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<ul>..</ul> 定义无序列表
<ol>..</ol>定义有序列表
<li>..</li>表示列表项
<img src="" alt="">表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接

编写如下代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>编程帮</title>
</head>
<body>
<a href="www.biancheng.net">点击访问</a>
<h1>编程帮www.biancheng.net</h1>
<h2>Python爬虫</h2>
<div>
<p>认识网页结构</p>
<ul>
<li>HTML</li>
<li>CSS</li>
</ul>
</div>
</body>
</html>

运行结果如下图所示:

python爬虫网页结构

图1:HTML网页结构

CSS

CSS 表示层叠样式表,其编写方法有三种,分别是行内样式、内嵌样式和外联样式。CSS 代码演示如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<!DOCTYPE html>
<html>
<head>
   <!-- 内嵌样式 -->
    <style type="text/css">
    
    body{
        background-color:yellow;
    }
    p{
        font-size: 30px;
        color: springgreen;
    }
    </style>
<meta charset="utf-8">
<title>编程帮</title>
</head>
<body>
<!-- h1标签使用了行内样式 -->
<h1 style="color: blue;">编程帮www.biancheng.net</h1>
<a href="www.biancheng.net">点击访问</a>
<h2>Python爬虫</h2>
<div>
<p>认识网页结构</p>
<ul>
<li>HTML</li>
<li>CSS</li>
</ul>
</div>
</body>
</html>

运行结果如下图所示:

python爬虫网页结构

图2:CSS样式表演示

如图 2 所示内嵌样式通过 style 标签书写样式表:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<style type="text/css"</style>

而行内样式则通过 HTML 元素的 style 属性来书写 CSS 代码。注意,每一个 HTML 元素,都有 style,class,id,name,title 属性。

外联样式表指的是将 CSS 代码单独保存为以 .css 结尾的文件,并使用 引入到所需页面:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<head>
<link rel="stylesheet" type="text/css" href="mystyle.css">
</head>

当样式需要被应用到多个页面的时候,使用外联样式表是最佳的选择。

JavaScript

JavaScript 负责描述网页的行为,比如,交互的内容和各种特效都可以使用 JavaScript 来实现。当然可以通过其他方式实现,比如 jQuery、还有一些前端框架( vue、React 等),不过它们都是在“JS”的基础上实现的。

简单示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<!DOCTYPE html>
<html>
<head>
    <style type="text/css">
        body{
            background-color: rgb(220, 226, 226);
        }
    </style>
<meta charset="utf-8">
<title>编程帮</title>
</head>
<body>
<h1 style="color: blue;">编程帮www.biancheng.net</h1>
<h2>Python爬虫</h2>
<p>点击下方按钮获取当前时间</p>
<button onclick="DisplayDate()">点击这里</button>
<p id="time" style="color: red;"></p>
<!-- script标签内部编写js代码 -->
<script>
    function DisplayDate(){
        document.getElementById("time").innerHTML=Date()
    }
</script>
</div>
</body>
</html>

运行结果如下:

python爬虫网页结构

图3:JS获取当前时间

参考文章:http://c.biancheng.net/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生活处处有BUG 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
HTML5+CSS3+JavaScript从入门到精通-08
HTML5+CSS3+JavaScript从入门到精通 作者:王征,李晓波 第八章 CSS基础 案例 08-01 CSS的基本语法 <!DOCTYPE html> <!--web08-01--> <!-- 选择器: body, h1, p 声明语句以;分隔 --> <html> <head> <meta charset="utf-8" /> <title>CSS的基本语法</title> <style type="text/css"> bod
qiqi_fu
2021/12/03
5050
HTML5+CSS3+JavaScript从入门到精通-08
爬虫基础(二)——网页
  当我们在浏览器网址栏输入一个网址——URL,经过TCP/IP协议簇的处理,这个网址请求的信息就被发送到URL对应的服务器,接着服务器处理这个请求,并将请求的内容返回给浏览器,浏览器便显示或者下载URL请求相应的资源。这是前一篇博客所述。
py3study
2020/01/20
2.1K0
CSS前端基础
CSS前端基础 1.CSS的快速入门 2、选择器 2.4、属性选择器 3、美化网页元素 3.1、字体样式 3.2 文本样式 3.3、超链接伪类 3.4、列表 3.5、背景 1.CSS的快速入门 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> <!-- 可以编写CSS的代码 语法: 选择器:{
Albert_xiong
2021/06/21
3560
CSS前端基础
打造个性化的个人网页:从HTML到个人品牌
在如今数字化时代,拥有一个个性化的个人网页已经成为展示自己、分享经历和展示技能的重要途径。本文将介绍如何使用HTML制作一个简单而有个性的个人网页,并通过几个简单的步骤来打造你自己的在线身份。
人不走空
2024/02/21
7220
打造个性化的个人网页:从HTML到个人品牌
【Web前端技术】第四节—CSS(简介+基础选择器+字体/文本属性+引入方式+Chrome调试工具)
说起 HTML,这其实是个非常单纯的家伙,他 只关注内容的语义 。比如 <h1> 表明这是一个大标题,<p> 表明这是一个段落,<img> 表明这儿有一个图片,<a> 表示此处有链接。 很早的时候,世界上的网站虽然很多,但是他们都有一个共同的特点: 丑 。 虽然 HTML 可以做简单的样式,但是带来的是无尽的 臃肿和繁琐 ……
云边有个稻草人
2025/05/04
2660
【Web前端技术】第四节—CSS(简介+基础选择器+字体/文本属性+引入方式+Chrome调试工具)
CSS学习笔记(基础篇)
CSS 指层叠样式表 (Cascading Style Sheets)(级联样式表)
Daotin
2018/08/31
4.8K0
CSS学习笔记(基础篇)
挑战30天学完Python:Day26 Python Web 服务
Python本身是一种通用的语言,可以用于很多的地方。在本篇中,我们将看到如何在Web开发中使用Python。它有很多的web架构框架。Django和Flask是比较流行。接下来我们就看看如何使用Flask进行web的开发。
MegaQi
2023/10/21
2830
挑战30天学完Python:Day26 Python Web 服务
web前端入门
8 = html + css +javascript(jQuery和vue就是js封装的函数而已)
小闫同学啊
2019/07/18
1.3K0
【Web前端】CSS基本语法规范和引入方式&&常见选择器用法&&常见元素属性
写在 style 标签中. 嵌入到 html 内部。理论上style放在哪里都可以,但一般放在head标签中。正如上面这个例子所示。这样做可以使页面结构和样式分离,但是分离地不够彻底,尤其是当style内部内容过多时。
用户10923276
2024/03/30
1840
【Web前端】CSS基本语法规范和引入方式&&常见选择器用法&&常见元素属性
css基础1
Css(实现了页面和样式的彻底分离) 写入样式表的三种方式: 内联样式表,嵌入样式表,外部样式表。 内联样式表的优先级高于嵌入样式表。嵌入式样式表的优先级大于外部样式表 样式表的选择器(通过选择器帮我们获得页面上要获得样式的元素) 写什么标签就拿到了什么标签。(当页面中所有标签都用同一种样式的时候用html选择器) 什么时候用id选择器什么时候用类选择器: 当同一个页面中某些元素显示同一个样式的时候一般用类选择器,id选择器一般是唯一的。 Css当中属性非常多,大体上可以分为以下几类:字体,背景,文本,位置
码农阿宇
2018/04/18
7310
css基础1
CSS 让网页动起来:美化与布局的终极指南
CSS(Cascading Style Sheets,层叠样式表)是用于控制网页样式和布局的语言。它可以让开发者轻松地设计网页的外观,从而提升用户体验和视觉吸引力。 如果以拍照来举例,HTML就是一张未经处理的额原相片,而CSS就是PS,可以美化HTML设计的框架。 那么CSS的具体核心作用就明晰了。
Yui_
2024/12/20
3350
CSS 让网页动起来:美化与布局的终极指南
CSS基础--属性选择器、伪类选择器
属性选择器 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>属性选择器</title> <style> .red{ color: red; } .blue{ color: blue; } .darkred{ color: darkred;
eadela
2019/09/29
1.1K0
技术分享 | Web测试方法与技术之CSS讲解
CSS 就是层叠样式表(Cascading Style Sheets),定义如何显示 HTML 元素。HTML 元素的样式通常存储在层叠样式表中。
霍格沃兹测试开发
2022/04/07
1.1K0
CSS3给网页穿上美丽的外衣
使用css,可以让原始的页面即黑色文字页面变得丰富起来,漂亮起来,实现我们想要的排版布局的效果
张哥编程
2024/12/19
1760
CSS3给网页穿上美丽的外衣
《前端技术基础》第02章 CSS基础【合集】
层叠样式表(Cascading Style Sheets,简称CSS)是一种用于描述网页视觉表现的语言。该语言与HTML协同工作,其中HTML负责构建网页的结构,而CSS则负责定义网页的外观和格式。CSS通过一系列规则来实现样式的应用,这些规则由选择器(Selectors)和声明块(Declaration Blocks)构成。选择器的作用是明确指出哪些HTML元素将受到特定样式规则的影响,而声明块则包含了具体的样式声明,这些声明定义了元素的视觉属性和相应的值。
Rossy Yan
2025/01/13
1790
《前端技术基础》第02章 CSS基础【合集】
前端课程——HTML概述
CSS 是个缩写形式,其全称为 Cascading Style Sheets,翻译成中文的含义为层叠样式表。
Dreamy.TZK
2020/04/09
9640
如何制作一个简单的网页(二)_简单的个人网页
HTML负责描述了网页的整体骨架 CSS负责描述了页面样式 利用其完成一个简单的个人建立网页。
全栈程序员站长
2022/11/07
2K0
如何制作一个简单的网页(二)_简单的个人网页
Web前端学习 第2章 网页重构2 常用的html标签
上一节我们已经了解了html和css的基本概念,本节通过上一节的一个例子来说说HTML的语法.
学习猿地
2020/06/12
7150
Web前端学习 第2章 网页重构2 常用的html标签
H5+CSS3+JS逆向前置——HTML1、H5文本元素
HTML,全称超文本标记语言(Hypertext Markup Language),是一种用于创建网页的标准标记语言。HTML为网页提供了一种结构性的标记方式,使得浏览器可以正确地解析和显示网页内容。
红目香薰
2023/12/18
2920
H5+CSS3+JS逆向前置——HTML1、H5文本元素
CSS简单入门
最近视频看的差不多了,就是一直没总结,这几天在上班之余,偷偷地总结吧,毕竟一些大牛已经快起飞了。
全栈程序员站长
2021/12/23
6610
CSS简单入门
相关推荐
HTML5+CSS3+JavaScript从入门到精通-08
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验