首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从远程页面获取URL,然后下载到txt文件

从远程页面获取URL,然后下载到txt文件
EN

Stack Overflow用户
提问于 2015-07-13 19:21:45
回答 1查看 352关注 0票数 0

我尝试了很多建议,但我找不到解决方案(我不知道是否可能),我使用了Ubuntu15.04终端

我需要在文本文件中下载mywebsite.com/ links _ (所有链接都以links_开头)的所有内部和外部链接,例如sony.aspx,我不需要所有其他链接(例如,ex )。use /index.aspx或conditions.asp等。我使用wget --spider --recursive --no-verbose --output-file="links.csv" http://www.mywebsite.com

你能帮帮我吗?提前感谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-07-13 20:13:41

如果您不介意使用其他一些工具来哄骗wget,那么您可以尝试使用awk、grep、wget和lynx的bash脚本:

代码语言:javascript
运行
复制
#! /bin/bash
lynx --dump $1 | awk '/http/{print $2}' | grep $2 > /tmp/urls.txt
for i in $( cat /tmp/urls.txt ); do wget $i; done

将上面的脚本保存为getlink,然后作为

代码语言:javascript
运行
复制
./getlinks 'http://www.mywebsite.com' 'links_' > mycollection.txt

这种方法不需要太多的其他工具,而是重用常用的工具。

您可能需要根据您正在使用的shell来使用引用。上述功能在标准bash中工作,并且不依赖于这些工具的特定版本。

您可以自定义该部件

代码语言:javascript
运行
复制
do wget $1

在wget和$1之间插入适当的开关以满足您的特定需求,例如递归、爬行器、冗长等等。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31391709

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档