如文件存取,正则表达式re,多进程multiprocessing
html网页结构. 如常见的标签tag,CSS中的class
爬虫相关的库.
urllib....资源链接即是从播放器下载图标中提取出来的链接中的 mp3=xxx的地址
lrc歌词改下后缀即可
提炼总结
根据提供的主页,通过特定的td标签解析出来每一个演讲的链接,即是一个单独的任务
对每个任务,解析...js中window.open后跟的链接,即是最终的资源所在;分别下载mp3和lrc即可
伪码
main_url = "xxx.html"
for td_tag in main_url:
check...pool.close()
pool.join()
if __name__ == "__main__":
scrapy_map3()
分析
代码实现是在设计的伪码基础上填充了细节,诸如具体的判断,以及文件名的获取等未提到的细节...考虑到网页获取,文本解析,资源下载速度较慢,而每一个演讲都是独立的,可以使用多进程进行加速
除了多进程,还有异步IO,协程等方式可以加速
参考
小e英语_英语演讲
莫烦python_爬虫基础
BeautifulSoup4.2.0