我试着用urllib抓取一个网站,但问题是一旦浏览了url,网页就会在主内容区显示“等待结果需要5到10秒”,几秒钟后网页就会收到数据并显示在主内容区。当页面成功接收到来自源的数据时,如何获取正确的内容。我使用python 2.7,下面是代码:
class NewOpener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Ubuntu/11.10 Chromium/15.0.874.120 Chrome/15
大家好!假设我有一个页面,它是我用这个脚本得到的:
page = urllib2.urlopen(url).read()
在抓取网页时,我如何有效地(快速)检查此内容是否已经抓取?我的算法是这样的:
seenContents = set()
then check if crawled content is in set or not
但我不知道该在该集合上存储什么,哈希值或其他?你能推荐些什么吗?
我实现了一个屏幕抓取器。当屏幕抓取JFrame关闭时,它刚才覆盖的屏幕部分将被抓取(捕获)。这在使用Oracle的标准Java的Windows中工作得很好。
private void closeButtonPerformed() {
Rectangle r = getBounds();
setVisible(false);
dispose();
percept.grab_screen(r); // grab_screen(r) is in main program class
}
因此,当按下关闭按钮时,JFrame的最后一个位置将传递给采集器。getBoun
我正在制作一个书签,这个书签可以抓取一个网页,并构造一个URL列表,这些URL是我想要播放的,而不是当前的网页。如何创建临时网页并在浏览器中查看?
到目前为止,这就是我所得到的:
var urls = myUrlScraper(window.location.pathname);
var tempPage = "<html>" + urls + "</html>";
window.location = tempPageUrl; // How to do this?
目前,我正试图在整个网页中获取一些文本数据。一开始,我抓取所有的网页,然后慢慢地在网页中筛选,从每一页抓取我需要的数据。例如,由于动态ID的原因,我在抓取诸如平方英尺或邻居之类的项目时遇到了困难。我通过XPath或CSS选择器看到的许多例子都涉及到搜索文本,但在我试图抓取的每一页上都会发生变化。有什么办法能捕捉到这片土地或社区吗?
from bs4 import BeautifulSoup
from selenium import webdriver as wd
from selenium.common.exceptions import StaleElementReferenceExcep