前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用Python来找合适的妹子(一)

用Python来找合适的妹子(一)

作者头像
龙哥
发布于 2018-10-22 06:22:23
发布于 2018-10-22 06:22:23
44900
代码可运行
举报
文章被收录于专栏:Python绿色通道Python绿色通道
运行总次数:0
代码可运行

Python做有趣的事情

时间真的有点仓促,匆匆忙忙撸完这篇文章.

虽然今天是情人节,但还是要关心一下单身狗们,帮助他们俩脱单。

古人云:知己知彼,百战不殆. 好好去了解一下妹子们的内心想法,早日脱单!

这次我在一个某知名婚恋网站,抓取了一些数据,对她们的内心读白进行分析.

我这次筛选条件:女性,年龄20-30,学历本科,就这些条件.

3000条妹子内心读白词云如下:

放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?

完整代码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# coding=utf-8


from selenium import webdriver
import time
from lxml import etree
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

"""
PEP8 Python编程规范
https://www.douban.com/note/134971609/

"""
# 获取浏览器驱动
driver = webdriver.Firefox()
driver.maximize_window()
webUrl = 'http://www.lovewzly.com/jiaoyou.html'
driver.get(webUrl)

# 等15秒,我来手动做一下筛选条件。,女性,21-30左右,学历本科,\
# 本来想通过js代码,来自动执行,但无奈对js真的不熟,也没有太多时间去整了,凑合看看.
time.sleep(15)

"""
下拉滚动条,从1开始到3结束 分2次加载完每页数据

"""
while True:

    for i in range(1, 20):
        height = 1000 * i  # 每次滑动20000像素
        strword = "window.scrollBy(0," + str(height) + ")"
        driver.execute_script(strword)
        time.sleep(3)

        s = etree.HTML(driver.page_source)
        selectors = s.xpath('//*[@id="hibox"]/table/tbody/tr/td/div')

        with open('内心读白.txt', 'a') as f:
            for selector in selectors:
                img = selector.xpath('./div[1]/img/@src')
                nick = selector.xpath('./div[2]/p[1]/span/text()')
                age = selector.xpath('./div[2]/p[2]/span[1]/text()')
                height = selector.xpath('./div[2]/p[2]/span[2]/text()')
                address = selector.xpath('./div[2]/p[2]/span[3]/text()')
                heart = selector.xpath('./div[2]/p[3]/text()')

                img = img[0] if len(img) > 0 else ''
                nick = nick[0] if len(nick) > 0 else ''
                age = age[0] if len(age) > 0 else ''
                height = height[0] if len(height) > 0 else ''
                address = address[0] if len(address) > 0 else ''
                heart = heart[0] if len(heart) > 0 else ''
                print nick, age, height, address, heart, img
                f.write(heart)

生成词云的代码之前的文章里面有,这里就不展示了,自行前往查阅!

时间确实太仓促了,我想做一个更好一点,但时间不够了

下一步准备:

  • 我们可以输入自己的需求,然后进行筛选.
  • 把妹子照片,身高,籍贯,收入,学历,摘偶要求,都一起配上,并配上她们的链接,让单身狗们有目标的找妹子!哈哈
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-02-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python绿色通道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用 Python 给自己找个合适的妹子
放心好了,她们都是追求精神满足而非物质,大部分都是要找生命中的另一半,那她们的另一半会是你吗?
诸葛青云
2019/05/31
5270
用 Python 给自己找个合适的妹子
用Python来找你喜欢的妹子(二)
我之前写了一个抓取妹子资料的文章,主要是使用selenium来模拟网页操作,然后使用动态加载,再用xpath来提取网页的资料,但这种方式效率不高。用Python来找合适的妹子(一)
龙哥
2018/10/22
5680
用Python来找你喜欢的妹子(二)
Python数据分析之糗事百科
最近一直忙着写材料,没给大家写作业的案例,第二期同学很厉害,都是抢着要作业做,哈哈,今天我就给大家写点爬虫的扩展和数据分析,让厉害的同学学起来。
罗罗攀
2019/02/22
3870
Python数据分析之糗事百科
Python爬虫:动态爬取QQ说说并生成词云,分析朋友状况
今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况。
龙哥
2018/10/22
1.5K0
Python爬虫:动态爬取QQ说说并生成词云,分析朋友状况
Python爬虫:使用Python动态爬取冯大辉老师微博,再用词云分析
冯大辉老师在程序员圈子中还是比较出名的,大部分都知道他这个人,性格很鲜明。他现在正在创业,公司叫无码科技,他有一个公众号叫小道消息,新榜给的活跃粉丝是30多万数据,他的微博有180万粉,这说明冯老师在科技界还是很有影响力的。
龙哥
2018/10/22
8360
Python爬虫:使用Python动态爬取冯大辉老师微博,再用词云分析
python爬取招聘网站数据
browser.find_element_by_xpath('//div[@class="body-container showData"]/div/div[2]').click() # 点击广告
JQ实验室
2022/02/10
1.9K0
哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
这次是用python登录并爬取豆瓣短评,并做词云分布,分别用到requests、xpath、lxml、jieba、wordcloud等python库。
Python进阶者
2019/09/24
5750
哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
Python中使用Xpath
XPath介绍: 是什么? 全称为XML Path Language 一种小型的查询语言 说道XPath是门语言,不得不说它所具备的优点: 1) 可在XML中查找信息 2) 支持HTML的查找 3) 通过元素和属性进行导航
慕白
2018/09/21
1.4K0
Python爬虫——XPath
XPath 表达式 描述 nodename 选取此节点的所有子节点 / 从根节点选取 //xxx 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 . 选取当前节点 .. 选取当前节点的父节点 @xxx 选取属性内容 /text() 选取文本内容 starts-with(@属性名称,属性字符相同部分) 以相同字符开始 演示使用HTML内容 html = ''' <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8">
羊羽shine
2019/05/28
7260
python爬取『大年初一』热映电影,以『可视化及词云秀』方式带你了解热映电影
今年给大家爬取『大年初一』上映的几部热门数据(评分、时长、类型)以及相关网友评论等数据
Python研究者
2021/03/05
4570
python爬取『大年初一』热映电影,以『可视化及词云秀』方式带你了解热映电影
Python爬取大量数据时,如何防止IP被封
继续老套路,这两天我爬取了猪八戒上的一些数据 网址是:http://task.zbj.com/t-ppsj/p1s5.html,可能是由于爬取的数据量有点多吧,结果我的IP被封了,需要自己手动来验证解封ip,但这显然阻止了我爬取更多的数据了。
龙哥
2018/10/22
9880
Python爬取大量数据时,如何防止IP被封
利用 Python 爬取了近 3000 条单身女生的数据,究竟她们理想的择偶标准是什么?
前几天手机上CSDN推荐了一篇文章《利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?》,恰好最近也在学习爬虫相关知识,打开一看,从数据的爬取——》数据的清洗——》数据的可视化,涵盖的知识是很多我从前没有尝试过的。之前一直的实战一直停留在数据的爬取,没有对数据进行分析使得数据在我手上似乎失去了价值。
杰哥的IT之旅
2020/07/20
1.2K0
利用 Python 爬取了近 3000 条单身女生的数据,究竟她们理想的择偶标准是什么?
爬虫(102)年少遇她误终身?
你是否曾经遇到那个她?让你至今难忘,却又错过了?如果有,小编今天就教了爬取她的QQ空间的说说,如果没有,那也没有关系,小编我陪你哈哈,那你可以爬取你自己的QQ空间
公众号---人生代码
2020/05/16
4940
Python——爬虫实战 爬取淘宝店铺内所有宝贝图片
之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法。
Originalee
2018/08/30
3.1K0
requests----爬取虎嗅网站
# -*- coding:utf-8 -*- # author: street import re
用户2337871
2019/07/19
6020
【爬虫】爬取豆瓣音乐信息
import requests from lxml import etree import re import pymongo import time client = pymongo.MongoClient('localhost', 27017) mydb = client['mydb'] musictop = mydb['musictop'] headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/5
天道Vax的时间宝藏
2021/08/11
4800
简书非官方大数据(三)
最近回老家了一趟,爬取简书的程序也就停下来了,回到长沙继续爬,很高兴的爬到了300W左右,导出来一看,好多重复的,我记得我说过设置过的,拿到代码一看,晕:
罗罗攀
2019/02/22
3950
简书非官方大数据(三)
数据获取:​网页解析之lxml
lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath(XML Path Language)解析方式。XPath,它是一门在XML文档中查找信息的语言,具有自身的语法,是用来确定XML文档中某部分位置的语言,最初是用来搜寻XML文档的,当然也适用于HTML文档的搜索。通俗点讲就是lxml可以根据XPath表示的位置来确定HTML页面中的内容,从而实现找到我们需要的内容。
马拉松程序员
2023/09/02
4020
数据获取:​网页解析之lxml
Python or Java?大数据解读学什么语言最赚钱
本文主要用Python爬取拉勾网不同编程语言职位信息,包括:Python岗、Java岗、C++岗、PHP岗、C#岗位(5岗);用R语言对影响薪资的因素进行分析。由于拉勾网的职位信息只显示30页,一页15个职位信息,如果单独爬取一个城市的岗位信息,只有几页是匹配的信息,信息量太小,分析没有说服力。因此,本文爬取拉勾网全国职位信息。主要三部分内容:
数据森麟
2019/09/27
5420
baidumap
import requests from lxml import etree import csv import json # address = '上海' # par = {'address': address, 'key': 'cb649a25c1f81c1451adbeca73623251'} # base = 'http://restapi.amap.com/v3/geocode/geo' # response = requests.get(base, par) # print(response.
天道Vax的时间宝藏
2021/08/11
2450
推荐阅读
相关推荐
用 Python 给自己找个合适的妹子
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验