有没有人能帮我弄清楚我需要输入的标签,这样我就可以从这个页面上抓取整个博客了:http://suvrobemused.blogspot.in/2018/02/devbhoomi.html?m=1
for link in soupObject.findAll('p'):发布于 2018-03-10 13:30:35
整个博客位于这个标签中:
<div class='post-body entry-content' id='post-body-7307656586337601982' itemprop='articleBody'>...</div>您可以使用以下命令找到该标记:
soup.find('div', class_='post-body entry-content')要获取此标记中的文本,可以使用.text;如果不想要额外的空格,可以使用.get_text(strip=True)。
r = requests.get('http://suvrobemused.blogspot.in/2018/02/devbhoomi.html?m=1')
soup = BeautifulSoup(r.text, 'lxml')
blog_text = soup.find('div', class_='post-body entry-content').text
print(blog_text.strip())部分输出:
自从普普长大后,我就一直利用二月中旬到月底去旅行。天气还是可以忍受的,我的工作安排很松散,几乎所有地方都是“淡季”,因为数以百万计的孩子在学校参加年终考试,所以他们的父母也很忙。我刚从另一次长途旅行回来。这在某些方面是重复的,在其他方面是第一次。这是我有生以来第一次带着我的母亲一起跑,当时我正跑着55岁。她足够坚强,能够应付整个事情,并享受其中。不容易,当我看到年龄只有她一半的女人--还有很多男人--他们已经衰老了。但是她仍然教数学,并且坚持做很多家务活…
https://stackoverflow.com/questions/49205608
复制相似问题