最近体验了一下Excel(PowerBI Desktop)爬取网页信息的能力,基于这些体验也写了几个帖子,对Excel(PowerBI Desktop)爬取网页的能力基本满意。
在Excel中,抓取网页的操作路径是:数据-新建查询-自web。可以简单抓取。
PowerBI Desktop可以进行稍微复杂的抓取。在输入网址后可以选择从网页页面自定义抓取的字段,甚至可以在查询代码编辑页面自己写css selector来进行更多样化的抓取。
这两天我又折腾了用Excel(PowerBI Desktop)抓取更复杂的网页信息。不得不说,在复杂抓取网页信息方面,Excel(PowerBI Desktop)体验比较糟糕——爬取网站信息的速度慢得让我无法忍受。刷新一次结果至少要两三个小时乃至更多。
我终于失去耐心,还是重操python大业(太多东西又忘掉了……),爬取同样的信息,python五六分钟就爬取完毕,这个效率的差异可比Excel和PowerBI Desktop高太多了。
所以,我的结论是:
1.简单爬取,页数不多情况下,用微软的Excel(PowerBI Desktop)不失为一个可行的选项。
2.大批量爬取,还是使用python这类工具吧(应该还有其他更高效的工具,但我只勉强会用python,所以只能提python)。
领取专属 10元无门槛券
私享最新 技术干货