文章/答案/技术大牛

发布

社区首页 >问答首页 >从远程页面获取URL，然后下载到txt文件

问从远程页面获取URL，然后下载到txt文件
EN

Stack Overflow用户

提问于 2015-07-13 19:21:45

回答 1查看 352关注 0票数 0

我尝试了很多建议，但我找不到解决方案(我不知道是否可能)，我使用了Ubuntu15.04终端

我需要在文本文件中下载mywebsite.com/ links _ (所有链接都以links_开头)的所有内部和外部链接，例如sony.aspx，我不需要所有其他链接(例如，ex )。use /index.aspx或conditions.asp等。我使用wget --spider --recursive --no-verbose --output-file="links.csv" http://www.mywebsite.com

你能帮帮我吗？提前感谢

url

wget

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-07-13 20:13:41

如果您不介意使用其他一些工具来哄骗wget，那么您可以尝试使用awk、grep、wget和lynx的bash脚本：

#! /bin/bash
lynx --dump $1 | awk '/http/{print $2}' | grep $2 > /tmp/urls.txt
for i in $( cat /tmp/urls.txt ); do wget $i; done

将上面的脚本保存为getlink，然后作为

./getlinks 'http://www.mywebsite.com' 'links_' > mycollection.txt

这种方法不需要太多的其他工具，而是重用常用的工具。

您可能需要根据您正在使用的shell来使用引用。上述功能在标准bash中工作，并且不依赖于这些工具的特定版本。

您可以自定义该部件

do wget $1

在wget和$1之间插入适当的开关以满足您的特定需求，例如递归、爬行器、冗长等等。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/31391709

复制

相似问题

问从远程页面获取URL，然后下载到txt文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从远程页面获取URL，然后下载到txt文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从远程页面获取URL，然后下载到txt文件
EN