1 问题
如何利用爬虫技术定向爬取网页连接?
2 方法
利用爬虫技术,通过实验、实践等证明提出的方法是有效的,是能够解决开头提出的问题。
代码清单 1
import requestsimport reheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}html = requests.get('https://www.nowcoder.com/tutorial/10004/1ed5d0cdb1f74e89a6d7efba82344dbb',headers = headers)giao = html.content.decode()goudai = re.findall(r'<dd class="sub-menu-underway">\s*<a href="(.*?)">\s*<i class="ico-menu ico-menu-play"></i><span\s*class="cont">(.*?)</span></a>',giao,re.S)links = ['https://www.nowcoder.com' + url[0] for url in goudai]title = [title[1] for title in goudai]print(links + title) |
---|
3 结语
针对如何定向获取网页连接问题,提出利用爬虫技术方法,通过实验,证明该方法是有效的。当前只能定向爬取到一个网页链接,不能实现爬取多个网页链接和不定向爬取数据。