我有一个破烂的代码,应该能够采取电话和地址从一个网页中的表格:
import scrapy
class PeopleSpider(scrapy.Spider):
name="People"
start_urls=[
'http://canada411.yellowpages.ca/search/si/1/519-896-7080/',
]
def parse(self,response):
for people in response.css("div.person-search__table--row"):
yield
嗨,我正在建立一个简单的电影网站,我正在使用谷歌数据存储作为我的后端。
我需要设计每天,每周,每月,所有时间的顶级电影下载量。
现在我只跟踪下载的数量,例如:数据库就像电影的一行,num_of_downloads作为一列,每当用户下载电影时,我就会递增这个字段。
Movie Id | Title | Description | num_of_downloads
现在最好的方式是显示每天,每周,每月,所有时间的电影下载量。
我正在考虑实现一个带有电影密钥和日期字段的新表,以跟踪每天的下载量,我可以用它来计算问题的其余部分。
Movie ID, Date, Downloads
M1
我抓取电影列表并将它们存储在我的数据库中。对于只包含英文字符的电影,一切都很好,但问题是,一些包含非英语字符的电影名称无法正确显示。例如,意大利电影"Il pi as crudele dei giorni“被存储为"Il pi& ugrave;crudele dei giorni”。
如果有什么解决办法,有人能告诉我吗?(我知道我可以为爬虫设置语言,我已经用意大利语爬行了电影标题,但当我想爬英文标题时,Imdb中还有一些非英语字符的电影)
编辑:这里是我的代码:
String baseUrl = "http://www.imdb.com/search/title
我在seed.txt中用url-1成功地执行了一次爬行,我可以在MySQL数据库中看到爬行的数据。现在,当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时,新的爬行开始于抓取步骤,并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。
我尝试检查隐藏的种子文件,但没有找到,并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题?