前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >简单的电子邮件爬虫Python代码

简单的电子邮件爬虫Python代码

原创
作者头像
艳艳代码杂货店
修改2021-11-01 13:47:16
修改2021-11-01 13:47:16
55800
代码可运行
举报
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
复制
import requests
import re
try:
    from urllib.parse import urljoin
except ImportError:
    from urlparse import urljoin
regex
email_re = re.compile(r'([\w.,]+@[\w.,]+.\w+)')
link_re = re.compile(r'href="(.*?)"')
def crawl(url):

result = set()

req = requests.get(url)

# Check if successful
if(req.status_code != 200):
    return []

# Find links
links = link_re.findall(req.text)

print("\nFound {} links".format(len(links)))

# Search links for emails
for link in links:

    # Get an absolute URL for a link
    link = urljoin(url, link)

    # Find all emails on current page
    result.update(email_re.findall(req.text))

return result


if name == 'main':
    emails = crawl('http://www.realpython.com')

print("\nScrapped e-mail addresses:")
for email in emails:
    print(email)
print("\n")</pre> 

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档