今天小麦苗给大家分享的是利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)。
利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入txt文件中(1)
原Python爬虫代码:
import requests
import re
url = 'http://blog.itpub.net/26736162/list/%d/'
pattern=re.compile(r'<a target=_blank href="(.*?)" class="w750"><p class="title">(.*?)</p></a>')
#pattern=re.compile(r'<a target=_blank href="(.*?)" class="w750"><p class="title">')
#ret=pattern.findall(data)
#print(''.join(ret))
def write2file(items):
with open('./download/lhrbest_itpub_link_title.txt','a',encoding='utf-8') as fp:
for item in items:
item=item[::-1]
s=':'.join(item)
# print('----',len(items))
fp.write(s+'\n')
# fp.write('---------------------------------------------------------------\n')
pass
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'}
def loadHtml(page):
if page >= 1:
for p in range(1,page+1):
url_itpub = url%(p)
print(url_itpub)
response = requests.get(url=url_itpub,headers = headers)
response.encoding = 'utf-8'
content = response.text
# print(content)
# Ctrl + Alt + V:提取变量
items = pattern.findall(content)
# print(items)
write2file(items)
pass
else:
print('请输入数字!!!')
pass
if __name__ == '__main__':
page = int(input('请输入需要爬取多少页:'))
loadHtml(page)
代码很简单,后续再优化处理。本文第一篇,因为后续还需要将所有的博客保存成html格式到本地。
About Me:小麦苗
● 本文作者:小麦苗,只专注于数据库的技术,更注重技术的运用
● 作者博客地址:http://blog.itpub.net/26736162/abstract/1/
● 本系列题目来源于作者的学习笔记,部分整理自网络,若有侵权或不当之处还请谅解
● 版权所有,欢迎分享本文,转载请保留出处
● 题目解答若有不当之处,还望各位朋友批评指正,共同进步