爬虫的大概思路其实就两点:
获取网页的HTML信息
解析HTML信息,提取我们真正需要的内容
一 前言
二 网络爬虫简介
1.审查元素
chrome:F12
2.简单实例
网络爬虫根据提供的URL信息...HTML标签的小说内容.接下来的目标就是讲小说的内容提取出来,过滤掉这些没用的HTML标签.
(3)Beautiful Soup
提取我们真正需要的内容有很多方法,例如用正则表达式,Xpath,Beautiful...是否成功的方法:
from bs4 import BeautifulSoup
观察可以看到,div\标签中存放了小说的正文内容,所以现在的目标就是把div中的内容提取出来....接下来,就是匹配抓取到的每一个标签,并提取章节名和章节文章.例如,取第一章,标签内容如下:
href="/1_1094/5403177.html">第一章 他叫白小纯
对BeautifulSoup...返回的匹配结果a,使用a.get("href")方法,就能获取href的属性值,使用a.string就能获取章节名,代码如下:
1 -*- coding:utf-8 -*-
2 import