首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python爬取图片+百度人脸检测过滤高颜值美女

Python爬取图片+百度人脸检测过滤高颜值美女

作者头像
python学习教程
发布于 2020-06-01 09:29:51
发布于 2020-06-01 09:29:51
1.2K01
代码可运行
举报
文章被收录于专栏:python学习教程python学习教程
运行总次数:1
代码可运行

pexels网站提供了大量贴图,从中搜索美女图片,编写爬虫进行下载,下载后图片中除了女人外,还包含男人,风景、静物和动物,调用百度人脸检测模块识别检测,将其中颜值大于60分的美女保存到另外一个文件夹。爬取图片共计1251张,最后过滤出的美女共计287张。上代码:

爬虫程序:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from bs4 import BeautifulSoup
import requests
import os
import time
save_path = 'F://photos/'
url_path = 'https://www.pexels.com/search/'
headers ={
 'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
}
searchWord = 'beauty'
urls = [url_path+searchWord+'/?page={}'.format(str(i)) for i in range(1,100)]
 
if not os.path.exists(save_path):
 os.mkdir(save_path)
page =1
for url in urls:
 img_list = []
 wb_data = requests.get(url,headers=headers)
 print("当前爬取页面链接",url)
 soup = BeautifulSoup(wb_data.text,'lxml')
 imgs = soup.select('article > a > img')
 for img in imgs:
 photo_src = img.get('src')
 img_list.append(photo_src)
 print("第{}页,共计{}张图片".format(page,len(img_list)))
 for item in img_list:
 data = requests.get(item, headers=headers)
 fp = open(save_path+item.split('?')[0][-10:],'wb')
 fp.write(data.content)
 fp.close()
 page = page+1
 time.sleep(2)

颜值检测程序:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from aip import AipFace
import base64
import os
import time
import shutil
#接入百度AI人脸识别的参数
APP_ID="换成你自己的"
API_KEY = "换成你自己的"
SECRET_KEY = "换成你自己的"
imageType = "BASE64"
options = {}
options["face_field"] = "gender,beauty"
options["face_type"] = "LIVE"
 
#下载图片和筛选图片的文件夹
file_path = 'F://photos/'
copy_file_path = 'F://highScore/'
file_lists=os.listdir(file_path)
 
aipFace =AipFace(APP_ID,API_KEY,SECRET_KEY)
#将图片转换为BASE64格式,这是百度平台的要求
def get_file_content(filePath):
 with open(filePath,'rb') as fp:
 content = base64.b64encode(fp.read())
 return content.decode('utf-8')
 
for file_list in file_lists:
 result = aipFace.detect(get_file_content(os.path.join(file_path,file_list)),imageType,options)
 error_code = result['error_code']
 if error_code == 222202:
 #没有人脸
 continue
 if error_code==223110:
 #人脸太多
 continue
 try:
 sex_type = result['result']['face_list'][-1]['gender']['type']
 #只要美女图片
 if sex_type == 'male':
 continue
 beauty = result['result']['face_list'][-1]['beauty']
 new_beauty = round(beauty/10,1)
 print(file_list,new_beauty)
 if new_beauty>=6:
 copy_src = os.path.join(file_path,str(new_beauty)+'_'+file_list)
 copy_dst = os.path.join(copy_file_path,str(new_beauty)+'_'+file_list)
 #重命名高分照片
 os.rename(os.path.join(file_path,file_list),copy_src)
 #复制高分照片到另外的照片
 shutil.copyfile(copy_src,copy_dst)
 time.sleep(1)
 except KeyError:
 pass
 except TypeError:
 pass

爬取的图片:

过滤后的图片:

看看最高颜值的美女:

较低颜值的女性:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-05-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫+颜值打分,5000+图片找到你的Mrs. Right
本项目利用Python爬虫和百度人脸识别API,针对简书交友专栏,爬取用户照片(侵删),并进行打分。 本项目包括以下内容:
罗罗攀
2018/08/10
8230
Python爬虫+颜值打分,5000+图片找到你的Mrs. Right
Python有趣|寻找知乎最美小姐姐
本月将更新八篇Python有趣系列文章。本系列通过多个有趣案例,讲解Python的玩法,其中包含如下内容,一一推进讲解。
罗罗攀
2019/03/15
3K1
Python实现AI人脸识别抖音上颜值高的小姐姐,批量下载视频!
如果一条条去刷确实很耗时间,如果 Python 能帮忙筛选出颜值高的小姐姐那就省了很多事。
一墨编程学习
2019/06/25
2K0
Python实现AI人脸识别抖音上颜值高的小姐姐,批量下载视频!
Python分析101位《创造营2020》小姐姐,谁才是你心中的颜值担当?
【导语】:今天我们来聊一聊《创造营2020》的101位选手小姐姐。Python技术部分请看第二部分。公众号后台,回复关键字“创造营”获取完整数据。
CDA数据分析师
2020/05/22
9460
你喜欢的女主播颜值多少分,今天带你测试虎牙直播女主播的颜值
随着现在直播的兴起,主播这个职业逐渐走入人们的视野。现在各大平台都有当家花旦、一哥、一姐等称号。其实人气是一方面,但是颜值才是硬实力。
松鼠爱吃饼干
2020/09/15
8220
你喜欢的女主播颜值多少分,今天带你测试虎牙直播女主播的颜值
python爬虫--看看虎牙女主播中谁颜值最高
网页链接:https://www.huya.com/g/4079 这里的主要步骤其实还是和我们之前分析的一样,如下图所示:
萌萌哒的瓤瓤
2020/08/26
9110
python爬虫--看看虎牙女主播中谁颜值最高
用Python寻找知乎最美小姐姐
导读:最近知乎老是给我推送两个问答,一个是「长得好看是种什么体验?」,另一个是「女朋友长得好看是怎样的体验?」。
IT阅读排行榜
2019/04/24
1.2K0
用Python寻找知乎最美小姐姐
知乎大神爬取高颜值美女(Python爬虫+人脸检测+颜值检测)
这是一篇来自知乎大神的技术文章 ---- 写在前面: 本文作者:邓卓 原文链接:本文转发修改已取得原作者授权 https://zhuanlan.zhihu.com/p/34425618 声明:文中所有文字、图片以及相关外链中直接或间接、明示或暗示涉及性别、颜值分数等信息全部由相关人脸检测接口给出。无任何客观性,仅供参考。 ---- 1 数据源 知乎话题『美女』下所有问题中回答所出现的图片 2 抓取工具 Python 3,并使用第三方库 Requests、lxml、AipFace,代码共 100 + 行 3
小小詹同学
2018/04/13
2.8K0
知乎大神爬取高颜值美女(Python爬虫+人脸检测+颜值检测)
知乎大神爬取高颜值美女(Python爬虫+人脸检测+颜值检测)
这是一篇来自知乎大神的技术文章
小詹同学
2018/04/13
2.7K0
知乎大神爬取高颜值美女(Python爬虫+人脸检测+颜值检测)
用 Python 写一个颜值测试小工具
我们知道现在有一些利用照片来测试颜值的网站或软件,其实使用 Python 就可以实现这一功能,本文我们使用 Python 来写一个颜值测试小工具。
Python小二
2020/08/18
7170
用 Python 写一个颜值测试小工具
微博网红都长什么样子?
在之前的分享中,我们已经学会了简书和知乎小姐姐的爬虫。今天罗罗攀把魔爪伸向了微博网红们,我们找找谁是最美网红。今天的流程如下:
龙哥
2019/07/15
1.2K0
微博网红都长什么样子?
利用百度人脸识别API实现一款简单的Python颜值打分
百度开源的人脸识别接口,通过上传人像图片可以返回颜值打分,年龄等信息;今天我们使用这个接口实现一款Python颜值打分神器
松鼠爱吃饼干
2021/09/02
8150
Python有趣|微博网红大比拼
在之前的分享中,我们已经学会了简书和知乎小姐姐的爬虫。今天罗罗攀把魔爪伸向了微博网红们,我们找找谁是最美网红。今天的流程如下:
罗罗攀
2019/05/15
5630
知乎美女挖掘指南--Python实现自动化图片抓取、颜值评分
声明:文中所有文字、图片以及相关外链中直接或间接、明示或暗示涉及性别、颜值分数等信息全部由相关人脸检测接口给出。无任何客观性,仅供参考。 1 数据源 知乎 话题『美女』下所有问题中回答所出现的图片 2 抓取工具 Python 3,并使用第三方库 Requests、lxml、AipFace,代码共 100 + 行 3 必要环境 Mac / Linux / Windows (Linux 没测过,理论上可以。Windows 之前较多反应出现异常,后查是 windows 对本地文件名中的字符做了限制,已使用正则
小小科
2018/05/04
1.3K0
知乎美女挖掘指南--Python实现自动化图片抓取、颜值评分
xpath爬取美女图片
尝试了一下用xpath爬取图集谷上面的美女图片,这次选择的是阿朱小姐姐,下面详细介绍如何爬取该网站中阿朱小姐姐的全部套图
全栈程序员站长
2022/09/18
1.1K0
xpath爬取美女图片
爬取百度贴吧的美图、感觉是时候要和年轻人接触接触了
听说现在00后和10后都特别喜欢玩QQ和百度贴吧,作为一个已经不玩qq很多年的我,感觉是时候要和年轻人接触接触了
润森
2022/08/18
2750
爬取百度贴吧的美图、感觉是时候要和年轻人接触接触了
抖音上好看的小姐姐,Python给你都下载了
如果一条条去刷确实很耗时间,如果 Python 能帮忙筛选出颜值高的小姐姐那就省了很多事。
Python数据科学
2019/06/14
1.2K0
抖音上好看的小姐姐,Python给你都下载了
PaddlePaddle实现人脸识别系统一——人脸数据集的获取
开发人脸识别系统,人脸数据集是必须的。所以在我们开发这套人脸识别系统的准备工作就是获取人脸数据集。本章将从公开的数据集到自制人脸数据集介绍,为我们之后开发人脸识别系统做好准备。
夜雨飘零
2020/05/01
3.8K0
Python爬虫-爬取彼岸图库图片案例
说明 不得使用本软件发布违反国家法律的非法广告信息,如色情,赌博等,其造成的一切后果与本作者无关 请自觉营造和谐良性的网络营销环境 违法行为一经发现 ,本作者有权终止服务并追究法律责任 本工具仅用于测试学习使用 本网站有部分内容来自互联网,如无意中侵犯了哪个媒体 、公司 、企业或个人等的知识产权,请来电或致函告之,本网站将在规定时间内给予删除等相关处理,若有涉及版权费等问题,请及时提供相关证明等材料并与我们联系,通过友好协商公平公正原则处理纠纷。 import re import reques
Reset
2022/12/27
6920
亚某逊验证码识别-使用百度OCR
最近在抓取亚某逊的时候, 除了随机请求头之外, 还有时不时出现的验证码页面, 原来换个ip还可以, 但是时间长了, 出现的越来越频繁, 所以这次就来彻底解决这个验证码的问题
不止于python
2022/05/31
7130
亚某逊验证码识别-使用百度OCR
推荐阅读
相关推荐
Python爬虫+颜值打分,5000+图片找到你的Mrs. Right
更多 >
交个朋友
加入AICoding云开发技术交流群
智能编码实践分享 聚焦AI+云开发
加入CloudBaseAI生成专属群
AI生成式应用探索 专属技术答疑空间
加入[CodeBuddy] 官方交流站
分享AI写代码技巧 共解产品技术难题
换一批
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档