我使用简单的HTML从返回结果页的网页中获取数据。我想把它格式化为标题,然后是描述。现在我正在使用以下代码:
<?php
include('simple_html_dom.php');
$html = file_get_html('https://www.example.com?q=randomquery');
foreach($html->find('div#resultscontainer') as $data)
//for each title
foreach($data->find('h3') as
目前,我正在使用以下方法获取标题:
title = html_response[/<title[^>]*>(.*?)<\/title>/,1]
这在从<title>This is a title</title>捕获“这是一个标题”方面做得很好。但是,有些网页会在一行上打开标题标签,在下一行上打印标题,然后关闭标题标记。
上面我介绍的Ruby行没有捕捉到类似的标题,所以我只是想找一个修复方法。
我试图在一个特定网页的标题上设置一个If/ the条件。
如果标题不是“您已被阻止”,我的脚本继续。
在不同环境的python中,我遇到了selenium问题,在第一个环境(OSX)中,一切都正常工作。我可以抓取标题检查它是否包含特定的字符串并继续或不包含我的脚本。在Debian和无头模式激活时,我无法访问网页的标题。
driver.get(url)
print(driver.title)
if driver.title != 'You have been blocked':
print('Ok have fun')
else:
print('