首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Spynner不从URL加载html

Spynner不从URL加载html
EN

Stack Overflow用户
提问于 2012-10-16 21:58:35
回答 1查看 1.5K关注 0票数 0

我使用spynner从站点抓取数据。我的代码是:

代码语言:javascript
运行
复制
import spynner

br = spynner.Browser()
br.load("http://www.venere.com/it/hotel/roma/hotel-ferrari/#reviews")
text = br._get_html()

此代码无法加载整个html页面。这是我收到的html:

代码语言:javascript
运行
复制
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head>

<script type="text/javascript">(function(){var d=document,m=d.cookie.match(/_abs=(([or])[a-z]*)/i)
v_abs=m?m[1].toUpperCase():'N'
if(m){d.cookie='_abs='+v_abs+'; path=/; domain=.venere.com';if(m[2]=='r')location.reload(true)}
v_abp='--OO--OOO-OO-O'
v_abu=[,,1,1,,,1,1,1,,1,1,,1]})()

我的问题是:如何加载完整的html?

更多信息:

我尝试过:

代码语言:javascript
运行
复制
import spynner
br = spynner.Browser()
respond = br.load("http://www.venere.com/it/hotel/roma/hotel-ferrari/#reviews")

if respond == None:
   br.wait_load ()

但是加载html永远不会完成或确定。有什么问题吗?我快要发疯了。

再说一次:我使用的是Django 1.3。如果我在Python (2.7)中使用相同的代码,有时会加载所有的html。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-10-17 00:38:05

现在,在检查了test.html的内容之后,您将找到带有id=“feedback-...someNume...”的p元素:

代码语言:javascript
运行
复制
import spynner

def content_ready(browser):
    if 'id="feedback-' in browser.html:
        return True

br = spynner.Browser()
br.load("http://www.venere.com/it/hotel/roma/hotel-ferrari/#reviews", wait_callback=content_ready)

with open("test.html", "w") as hf:
    hf.write(br.html.encode("utf-8"))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12916360

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档