Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AO3被封的冤不冤?可视化数据分析《下坠》

AO3被封的冤不冤?可视化数据分析《下坠》

原创
作者头像
Python 实用宝典
发布于 2020-06-17 01:58:45
发布于 2020-06-17 01:58:45
1.8K0
举报
文章被收录于专栏:Python 实战教程Python 实战教程

AO3是一个外网自由创作网站,全称为 Archive of Our Own 其在Alexa的世界排名居于第690名,是雨果最佳相关作品奖的获得者。作为一个非盈利性的开源同人小说数据库网站,站内的文章均由网友贡献,因此也没有核查机制。

1月30日,网友“博君一肖”在AO3发布并连载了一篇同人文《下坠》,并在微博同步上传了这篇文章,而且自设了预警,希望接受不了的人不要点开。

几天后,这篇文章连载到12章,而且微博原文包含了ao3网站和lofter app链接,引起了大量博肖cp粉热转。

26日,许多粉丝觉得该cp文中含有侮辱性文字,无法接受这样的文字,于是开始撕X,网上举报阵营和lof阵营开始对线,互相口吐芬芳,展现了中华民族几千年来的文化底蕴。

事件持续发酵,最终闹到了某办,某办一看,我X,原来还有这个漏网之鱼,顺手就给他封了。真的太冤了,不过也不能说人家乱封,为什么呢?因为同人文大多是读者在原作的基础上把某些作品里的人物放在新的环境里,以展现自己和原作不同的观念,而大多数时候,这些观念最终都会掺杂色情因素。看看我们下文对《下坠》的分析就知道了。

本文完整分析代码可在公众号后台回复:下坠 获得。本文不详细分析代码,不过这份代码的知识,你可以在这两篇文章里学习到:

  1. Python 情人节超强技能 导出微信聊天记录生成词云
  2. Python 识别文本情感就这么简单

1.词频统计

我们利用Python里的jieba分词、matplotlib模块分析整篇文章词汇,并提取词频前20的词语,得到结果如下:

确实,涉及到两位明星的词语是最多的,其次是阿丽姐(不知道是不是作者的化身)。赞赞在其中是女性角色,难怪粉丝们暴跳如雷。这样分析,似乎看不出太多的内含,我们把维度细化一点。

从敏感角度看,这个词汇频率会是怎样的呢?由于纯洁的我实在是接受不了,因此打了点马赛克(如果这样你都能猜出是什么词....嗯...建议多看看天线宝宝):

经过统计,文章出现一共20367个非黄色词汇,284个涉黄词汇。涉黄词汇出现概率约为1.4%,也就是说每100个词汇里就会出现一次黄词,这个概率相当高了,感觉《挪威的森林》略逊一筹,《失乐园》大可一战。

最后,来个词云结束这一部分:

2.句型分析

我们使用Lstm,按行对整片文章进行分析,看看这些句子呈现的情感特点是否有某边倒的倾向,其中,当分为正面信度大于0.7,或负面信度大于0.7的时候分别分到正面分类和负面分类,其他情况为中性:

得到结果如下:

>>{'neg': 988, 'pos': 332, 'mid': 471}

负面的句子占了55%,文章负面情绪较多。负面情绪只是衡量一篇文章的情感倾向,无法说明什么。

接下来才是关键,识别句子的涉黄程度,同样地,设定概率置信度大于0.7的时候进行分类:

获得结果如下:

>> {'porn': 280, 'not_porn': 1511}

1800条句子中,280条语句涉黄,概率高达16%. 每100条句子中就有约16条黄色片段,《失乐园》可能都甘拜下风啊。到这里,大家可能都会觉得这篇同人文被举报是非常正常的(尽管粉丝们不满的是某位明星被当成女性角色)。

当然,大家如果感兴趣还可以用词法分析工具分析文章中的攻防次数,非常有意思,但是涉及到敏感词汇,我这里就不再展开了(逃)。本文完整分析代码可在公众号后台回复:下坠 获得。

我们的文章到此就结束啦,如果你希望我们今天的Python 教程,请持续关注我们,如果对你有帮助,麻烦在下面点一个赞/在看哦

有任何问题都可以在下方留言区留言,我们都会耐心解答的!


欢迎关注公众号:Python实用宝典

还有更多的Python实战教程等着你哦

原文来自Python实用宝典:AO3被封的冤不冤?Python实战可视化数据分析《下坠》

Python实用宝典
Python实用宝典

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据库高可用架构设计,看这篇就够了!!!
又赶上一年一度的金九银十的日子,这段期间的招聘岗位相对前几个月会多些,如果在目前公司没有进步、没有前途时,这段时间可以准备一下,去外面看看机会。不过在外面找工作时,可以提前在网上看看招聘信息,看看自己是否达到公司要求。如果多看下高薪资的技术人员招聘要求时,就会发现对三高都有一定的要求,比如下面一家公司的要求就对高并发、高负载和高可用性系统设计要有开发经验。
一个会写诗的程序员
2023/03/08
3K0
数据库高可用架构设计,看这篇就够了!!!
MySQL 8 复制(四)——GTID与复制
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/91047395
用户1148526
2019/07/02
4.2K0
MySQL主从复制 —— 作用、原理、数据一致性,异步复制、半同步复制、组复制
二进制日志(BINLOG)记录了所有的 DDL(数据定义语言,创建库、表)语句和 DML(数据操纵语言,增删改)语句,但不包括数据查询(SELECT、SHOW)语句。
寻求出路的程序媛
2025/02/06
8281
MySQL主从复制 —— 作用、原理、数据一致性,异步复制、半同步复制、组复制
高性能 MySQL 主从架构的复制原理及配置详解
Mysql内建的复制功能是构建大型,高性能应用程序的基础。将Mysql的数据分布到多个系统上去,这种分布的机制,是通过将Mysql的某一台主机的数据复制到其它主机(slaves)上,并重新执行一遍来实现的。复制过程中一个服务器充当主服务器,而一个或多个其它服务器充当从服务器。主服务器将更新写入二进制日志文件,并维护文件的一个索引以跟踪日志循环。这些日志可以记录发送到从服务器的更新。当一个从服务器连接主服务器时,它通知主服务器从服务器在日志中读取的最后一次成功更新的位置。从服务器接收从那时起发生的任何更新,然后封锁并等待主服务器通知新的更新。
杰哥的IT之旅
2021/01/06
1.5K0
高性能 MySQL 主从架构的复制原理及配置详解
mysql学习之mysql集群
​ mysql主从架构部署比较简单,常见架构根据主从节点个数不同分成 一主多从,多主一从,双主节点等。
全栈程序员站长
2022/11/01
3.2K0
mysql学习之mysql集群
MySQL 复制原理详解
腾讯云开发者社区
2017/06/15
3.2K0
MySQL 复制原理详解
MySQL 复制 - 性能与扩展性的基石 1:概述及其原理
MySQL 内置的复制功能是构建基于 MySQL 的大规模、高性能应用的基础,复制解决的基本问题是让一台服务器的数据与其他服务器保持同步。
北国风光
2019/04/11
4620
MySQL 复制 - 性能与扩展性的基石 1:概述及其原理
MySQL复制中使用的线程
MySQL的主从复制是一项重要功能,可以利用其实现读写分离、高可用,及备份等目的。众所周知,MySQL是一个单进程、多线程的数据库,在各项工作中调用了不同的线程,本篇将介绍在主从复制中所使用的线程。
MySQLSE
2024/04/15
2240
MySQL复制中使用的线程
MySQL 8 复制(一)——异步复制
简单说,复制就是将来自一个MySQL数据库服务器(主库)的数据复制到一个或多个MySQL数据库服务器(从库)。传统的MySQL复制提供了一种简单的Primary-Secondary复制方法,默认情况下,复制是单向异步的。MySQL支持两种复制方式:基于行的复制和基于语句的复制。这两种方式都是通过在主库上记录二进制日志(binlog)、在从库重放中继日志(relylog)的方式来实现异步的数据复制。二进制日志或中继日志中的记录被称为事件。所谓异步包含两层含义,一是主库的二进制日志写入与将其发送到从库是异步进行的,二是从库获取与重放日志事件是异步进行的。这意味着,在同一时间点从库上的数据更新可能落后于主库,并且无法保证主从之间的延迟间隔。
用户1148526
2019/05/25
5.3K0
mysql主从复制配置
image.png 配置思路 1. 修改master和slave的配置文件,使用二进制日志,指定serverid 目的是让各自都有了自己的唯一标示,并以二进制文件格式进行交流 2. master中创建授权用户,查看二进制日志文件名,及最新位置 让slave知道用哪个用户信息访问master,知道读取哪个日志文件,及从哪儿开始读 3. slave中使用被授权用户信息及日志文件信息,进行指向master 这时已经建立了和master的联系,明确了从哪儿读取日志文件 3. 执行启动slave的命令,开始主从复制,
dys
2018/04/02
1.1K0
mysql主从复制配置
高性能Mysql主从架构的复制原理及配置详解
Mysql内建的复制功能是构建大型,高性能应用程序的基础。将Mysql的数据分布到多个系统上去,这种分布的机制,是通过将Mysql的某一台主机的数据复制到其它主机(slaves)上,并重新执行一遍来实现的。复制过程中一个服务器充当主服务器,而一个或多个其它服务器充当从服务器。主服务器将更新写入二进制日志文件,并维护文件的一个索引以跟踪日志循环。这些日志可以记录发送到从服务器的更新。当一个从服务器连接主服务器时,它通知主服务器从服务器在日志中读取的最后一次成功更新的位置。从服务器接收从那时起发生的任何更新,然后封锁并等待主服务器通知新的更新。
用户7353950
2022/05/11
5430
高性能Mysql主从架构的复制原理及配置详解
MySQL 主从复制原理
在实际生产环境中,如果对MySQL数据库的读和写都在一台数据库服务器中操作,无论是在安全性、高可用性,还是高并发等各个方面都是不能满足实际需求的,一般要通过数据库集群的主从复制机制来同步数据,再通过读写分离来提升数据库的并发负载能力
终有救赎
2023/11/11
2660
MySQL 主从复制原理
MySQL 常见日志清理策略
MySQL 数据库服务器使用多种类型的日志来记录操作和事件,这对于故障诊断、审计和性能分析非常重要。然而,这些日志文件会随着时间的推移而不断增长,可能会占用大量的磁盘空间。因此,定期清理这些日志是必要的,本篇文章我们一起来学习下如何清理 MySQL 中的日志文件。
MySQL技术
2024/08/08
3490
MySQL 常见日志清理策略
MySQL集群架构[通俗易懂]
题记: 文章内容输出来源:拉勾教育Java高薪训练营。 本篇文章是 MySQL 学习课程中的一部分笔记。
全栈程序员站长
2022/09/18
1.6K0
MySQL集群架构[通俗易懂]
Mysql 主从复制实战(学习笔记十三)
https://www.cnblogs.com/along21/p/8011596.html
用户5760343
2022/05/23
8240
Mysql  主从复制实战(学习笔记十三)
MySQL集群 1主1从 主从复制(原理 及配置命令)
MASTER_LOG_FILE='二进制文件', MASTER_LOG_POS=154;
神秘泣男子
2024/06/03
1370
MySQL集群 1主1从 主从复制(原理 及配置命令)
MySql三种备份方式
1. 做灾难恢复:对损坏的数据进行恢复和还原 2. 需求改变:因需求改变而需要把数据还原到改变以前测试:测试新功能是否可用
用户4283147
2022/10/27
8510
理解MySQL——复制(Replication)
1、复制概述 1.1、复制解决的问题 数据复制技术有以下一些特点: (1) 数据分布 (2) 负载平衡(load balancing) (3) 备份 (4) 高可用性(high availability)和容错 1.2、复制如何工作 从高层来看,复制分成三步: (1) master将改变记录到二进制日志(binary log)中(这些记录叫做二进制日志事件,binary log events); (2) slave将master的binary log events拷贝到它的中继日志(relay log); (3) slave重做中继日志中的事件,将改变反映它自己的数据。
哲洛不闹
2018/09/19
8040
理解MySQL——复制(Replication)
mysql主从复制原理
所以能看到主从同步的内容就是二进制日志(Binlog),它虽然叫二进制日志,实际上存储的是一个又一个事件(Event),这些事件分别对应着数据库的更新操作,比如 INSERT、UPDATE、DELETE 等。另外我们还需要注意的是,不是所有版本的 MySQL 都默认开启服务器的二进制日志,在进行主从同步的时候,我们需要先检查服务器是否已经开启了二进制日志。
Michel_Rolle
2023/11/08
3.1K0
MySQL 主从复制解决了什么问题?出现同步延迟如何解决?
日志文件中记录的到底是什么呢?mysql支持了两种日志格式,这两种日志格式也体现了各自的复制方式
民工哥
2021/05/11
1.1K0
推荐阅读
相关推荐
数据库高可用架构设计,看这篇就够了!!!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档