我尝试了很多建议,但我找不到解决方案(我不知道是否可能),我使用了Ubuntu15.04终端
我需要在文本文件中下载mywebsite.com/ links _ (所有链接都以links_开头)的所有内部和外部链接,例如sony.aspx,我不需要所有其他链接(例如,ex )。use /index.aspx或conditions.asp等。我使用wget --spider --recursive --no-verbose --output-file="links.csv" http://www.mywebsite.com
你能帮帮我吗?提前感谢
发布于 2015-07-13 20:13:41
如果您不介意使用其他一些工具来哄骗wget,那么您可以尝试使用awk、grep、wget和lynx的bash脚本:
#! /bin/bash
lynx --dump $1 | awk '/http/{print $2}' | grep $2 > /tmp/urls.txt
for i in $( cat /tmp/urls.txt ); do wget $i; done将上面的脚本保存为getlink,然后作为
./getlinks 'http://www.mywebsite.com' 'links_' > mycollection.txt这种方法不需要太多的其他工具,而是重用常用的工具。
您可能需要根据您正在使用的shell来使用引用。上述功能在标准bash中工作,并且不依赖于这些工具的特定版本。
您可以自定义该部件
do wget $1在wget和$1之间插入适当的开关以满足您的特定需求,例如递归、爬行器、冗长等等。
https://stackoverflow.com/questions/31391709
复制相似问题