首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在使用beautifulsoup4进行网页抓取时提取博客页面的文本部分?

如何在使用beautifulsoup4进行网页抓取时提取博客页面的文本部分?
EN

Stack Overflow用户
提问于 2018-03-10 13:14:46
回答 1查看 278关注 0票数 0

有没有人能帮我弄清楚我需要输入的标签,这样我就可以从这个页面上抓取整个博客了:http://suvrobemused.blogspot.in/2018/02/devbhoomi.html?m=1

代码语言:javascript
运行
复制
for link in soupObject.findAll('p'):
EN

回答 1

Stack Overflow用户

发布于 2018-03-10 13:30:35

整个博客位于这个标签中:

代码语言:javascript
运行
复制
<div class='post-body entry-content' id='post-body-7307656586337601982' itemprop='articleBody'>...</div>

您可以使用以下命令找到该标记:

代码语言:javascript
运行
复制
soup.find('div', class_='post-body entry-content')

要获取此标记中的文本,可以使用.text;如果不想要额外的空格,可以使用.get_text(strip=True)

代码语言:javascript
运行
复制
r = requests.get('http://suvrobemused.blogspot.in/2018/02/devbhoomi.html?m=1')
soup = BeautifulSoup(r.text, 'lxml')
blog_text = soup.find('div', class_='post-body entry-content').text
print(blog_text.strip())

部分输出:

自从普普长大后,我就一直利用二月中旬到月底去旅行。天气还是可以忍受的,我的工作安排很松散,几乎所有地方都是“淡季”,因为数以百万计的孩子在学校参加年终考试,所以他们的父母也很忙。我刚从另一次长途旅行回来。这在某些方面是重复的,在其他方面是第一次。这是我有生以来第一次带着我的母亲一起跑,当时我正跑着55岁。她足够坚强,能够应付整个事情,并享受其中。不容易,当我看到年龄只有她一半的女人--还有很多男人--他们已经衰老了。但是她仍然教数学,并且坚持做很多家务活…

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49205608

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档