“你见过的有些人能漂亮到什么程度?”
原问题在这儿你见过的有些人能漂亮到什么程度?
使用Python爬虫爬取这个问题下的高赞照片。
def get_answers_by_page(page_no):
offset = page_no * 10
url = "<answer url>&offset={}&limit=10&sort_by=default&platform=desktop".format(offset)
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
}
r = requests.get(url, verify=False, headers=headers)
content = r.content.decode("utf-8")
data = json.loads(content)
is_end = data["paging"]["is_end"]
items = data["data"]
client = pymongo.MongoClient()
db = client["beauty"]
if len(items) > 0:
db.answers.insert_many(items)
return is_end
def get_answers():
page_no = 0
client = pymongo.MongoClient()
while True:
print(page_no)
is_end = get_answers_by_page(page_no)
page_no += 1
if is_end:
break
def query():
client = pymongo.MongoClient()
db = client["beauty"]
items = db.answers.find({"voteup_count": {"$gte": 100}}).sort([("voteup_count", pymongo.DESCENDING)])
count = 0
for item in items:
content = item["content"]
vote_num = item["voteup_count"]
author = item["author"]["name"]
matched = re.findall(r'data-original="([^"]+)"', content)
print("> 来自 {}\n".format(item["url"]))
print("> 作者 {}\n".format(author))
print("> 赞数 {}\n".format(vote_num))
img_urls = []
for img_url in matched:
if img_url not in img_urls:
print("".format(img_url))
img_urls.append(img_url)
count += len(img_urls)
print("\n\n")
print(count)
get_answers_by_page
- 这个函数用于获取一页的回答内容,获取的内容会存到本地MongoDB里
get_answers
- 这个函数用于获取所有页的内容,它会调用上面的函数,循环获取每一页的内容
query
- 这个函数用于从MongoDB里查询数据,筛选高赞回答,并且把结果打印出来
如果要完整的运行这个项目,大家可以下载源代码后,在本地运行。 运行项目后,程序会筛选出所有赞数大于100的回答,并且把回答里的图片整理出来。赞数越高的回答,小姐姐的颜值越高。