虽然我以前经常写爬虫,但毕竟是代码活,复用性非常低,每次得耗十几分钟解析网页并且写好代码。而熟悉linux的朋友都应该了解wget这个神器,有了url之后一行命令即可完成下载。
但真实的需求往往是,需要下载某个ftp服务器里面的多个文件,甚至该ftp服务器需要用户名和密码登录,比如公司给你提供的测序数据结果:
诚然,我们可以用winscp或者filezilla等客户端软件下载,但是更多时候我们的数据量非常大,需要直接在服务器用命令行工具下载。
这个时候,就需要学习wget的高级技巧了。
比如之前卫计委搞了一个全国范围的基因检测实验室考察活动,放出的测试数据就是这样下载的:
再比如http服务器:
斯坦福大学的生物信息学算法课程里面推荐阅读的的所有pdf格式的paper 课程的网址是:http://ai.stanford.edu/~serafim/CS374_2011/ 可以看到,这个网站推荐的文献分成8大类,本身这个网站打开就需要登录用户名和密码:
每一篇文献的单独地址是http://ai.stanford.edu/~serafim/CS3742011/papers/Miscellaneoustopics/Self-assemblyofDNA/selfhealingand_proofreading.pdf 类似的格式。
我这里简单解释一下这些参数的意思:
-c -r -np -k -L -p -A.pdf
至于最后的--http-user=CS374-2011 --http-passwd=AlgorithmsInBiology 就是登录该课程网站需要的用户名和密码
是不是很好用呀,赶快去试一试吧
领取专属 10元无门槛券
私享最新 技术干货