Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一网打尽“小黄图”!手把手教你造一只AI鉴黄神器(内附代码及数据集)

一网打尽“小黄图”!手把手教你造一只AI鉴黄神器(内附代码及数据集)

作者头像
大数据文摘
发布于 2019-04-26 02:06:38
发布于 2019-04-26 02:06:38
4.3K00
代码可运行
举报
文章被收录于专栏:大数据文摘大数据文摘
运行总次数:0
代码可运行

大数据文摘出品

作者:蒋宝尚

鉴黄师是一个因为“扫黄打非”的需要而设立的特殊岗位。

在互联网色情内容暴增的情况下其在净化网络的任务中扮演着非常重要的角色。

然而长期面对大量色情内容的刺激使这类工作者往往要承受心理、生理的双重压力。

机器学习深度学习发展到了今天,造出的AI已经可以在下棋方面狂虐人类。设计个识别不雅图片的算法也不难实现。

GitHub 上开源了一款鉴定不雅内容的js库NSFW JS,你可以根据他的教程,搭建属于你自己的鉴黄客户端,甚至都不需要让文件离开用户的电脑。

NSFW:不适合在工作场合出现的内容(英语:Not Safe/Suitable For Work,缩写:NSFW)是一个网络用语,多指裸露、暴力、色情或冒犯等不适宜公众场合的内容。在给出含有上述内容的超链接旁标注 NSFW,用于警告观看者。

贡献者的背景非常复杂,例如Gant Laborde是Infinite Red的首席技术战略家,Jamon Holmgren是Infinite Red的联合创始人。Frank von Hoven III是Infinite Red的软件工程师,Sean Nam和Gilbert Emerson则都是计算机专业的学生。

懒得动手的小伙伴,作者也给出了网页版的AI,只需要把图片上传到网页,只需几秒就能出来识别结果。

先给出github项目地址和网页地址:

网页地址:

https://nsfwjs.com/

项目地址:

https://github.com/infinitered/nsfwjs

打开网页是这样的☟

输入图片后的表现是这样的☟

嗯,算法还算准确,两个人物露了这么多的肉,还能准确识别这不属于不雅内容。

注意这五个标签的意思是:绘画(Drawing):无害的艺术,或艺术绘画。变态(Hentai):色情艺术,不适合大多数工作环境下观看。中立(Neutral):一般,无害的内容。色情(Porn):不雅的内容和行为,通常涉及生殖器。性感(Sexy):不合时宜的挑衅内容。

那我们再来一张,升级一下难度☟

不错不错,竟然能识别出来裸体的思考者不属于不雅内容,可以说厉害极了。

那....再来一张☟

色情艺术和绘画艺术几乎五五开,这让人有点摸不着头脑了!

数据

准确率如此优秀的模型,怎么可能少了优质的数据做支撑。

根据项目github的介绍,这个算法的训练来自一位名叫Alexander Kim的数据科学家贡献的数据集。

数据集地址:

https://github.com/alexkimxyz/nsfw_data_scraper

数据集一共将内容分为5类,分别是:hentai、sexy、neutral、drawings、porn,代表的含义和上文介绍的一样。

除此之外,还有每个脚本的作用也做了解释,使用者可以做到心中有数!

这些数据集可以用来训练图像分类器,使用CNN做出来的分类器,分辨上述的5种图像准确度可以达到91%。

数据集中,一共有227995张图片。其中,hentai类别中有45228张;sexy类别19554张;neutral有20960张、drawings有25732张;porn类别最多,有116521张。而这些图片,都以txt格式的形式存储图片的网页链接,以drawings类别为例:

注意:注意有少数图片的网址已经失效

另外,这个数据集的github项目,也对运行环境和以及运行方式做了介绍,需要的小伙伴可以去github地址查看:

https://github.com/alexkimxyz/nsfw_data_scraper

如何使用

根据网站给出的博客文章,只有三个步骤:1.获取代码;2.在客户端加载模型;3.对图像进行分类。

博客主要展示的是node风格的用法,首先引入NSFW JS,当然,需要事先获取ensorflowJS。

然后在 JS 文件中导入 Node 模块:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
// Load files from the server to the client!
const model = await nsfwjs.load('/model/')// or just use require('nsfwjs')

然后在客户端加载模型,这个“模型”是用来评价函数的。模型的文件可以下载,而且这些文件是 4MB 大小的分片,便于在客户端进行缓存。在示例中,作者将它们放在 public/model/ 文件夹中。

加载模型的路径要注意,如果你的目录也和作者一样,可以☟

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
// Load files from the server to the client!
const model = await nsfwjs.load('/model/')

现在,模型已经在客户端的内存当中了,接下来做的是对页面上的图像元素进行分类。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
// Gimme that image
const img = document.getElementById('questionable_img')// Classify the image
const predictions = await model.classify(img)
// Share results
console.log('Predictions: ', predictions)

预测在默认情况下将返回 5 个分类结果,按照概率的大小进行排序!例如:

所有概率的加起来等于1 。在使用的过程中,你可以标记关注概率超过 0.6分类,或者仅关注概率值最高的那个。

另外,模型可以会出现一定概率的误报,原因可能是标记的数据存在偏差,随着对数据的校正,误报会逐渐减少,当然,这是一个渐进的过程。但是对于不雅内容,出现识别误差要比漏报好很多。

因为是开源的,模型一直在改进,你也可以加入算法改进的队列当中去哟~

最后,作者建议在做一些项目的过程中要打开你的想象力,正如下面的幻灯片说说的那样☟

"Machine Learning does things a human can do ;trained with a lot of time and a lot of examples."

相关报道:

https://github.com/infinitered/nsfwjs

https://shift.infinite.red/avoid-nightmares-nsfw-js-ab7b176978b1

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
那个20多万“不可描述”照片的数据集,有人用它做了鉴黄模型 | Demo
近日, GitHub出现一个名为“NSFW Model”的项目。通俗一点来说,就是一个鉴黄模型。
量子位
2019/04/24
6330
那个20多万“不可描述”照片的数据集,有人用它做了鉴黄模型 | Demo
内含20万“不可描述”图片,这个数据集千万别在办公室打开
他说,这些数据集可以用来训练图像分类器,使用CNN做出来的分类器,分辨上述的5种图像准确度可以达到91%。
量子位
2019/04/24
8810
内含20万“不可描述”图片,这个数据集千万别在办公室打开
一个22万张NSFW图片的鉴黄数据集?我有个大胆的想法……
内容审核在很多领域都有非常重要的作用,它不仅需要通过分类器识别图像或其它数据不适合展示,同时还能结合语义分割模型对这些限制级图像进行处理(Mask 掉敏感部分)。这样在不过多影响内容的情况下去除掉不合适的信息。开发者 alexkimxyz 构建的这个项目大概收集了 20 多万张敏感图像,且通过 URL 的形式展示了 GitHub 中。
机器之心
2019/04/30
2.3K0
一个22万张NSFW图片的鉴黄数据集?我有个大胆的想法……
nsfw图片鉴黄神器
https://github.com/mdietrichstein/tensorflow-open_nsfw
R0A1NG
2022/02/19
4.4K0
nsfw图片鉴黄神器
GitHub秒变GayHub
江湖一直有传闻:三流程序员写UI,二流程序员写框架,一流程序员写算法,顶级程序员穿女装。
xcbeyond
2020/04/02
1.6K0
算法警告!该图片涉嫌违规不予显示
导读:一般看到这张图,“老司机”立马心领神会,就会猜到这篇文章的主题大致与什么相关。
IT阅读排行榜
2019/03/12
1.9K0
算法警告!该图片涉嫌违规不予显示
开源鉴黄AI新鲜出炉:代码+预训练模型,还附手把手入门教程
资源来自一名印度小哥Praneeth Bedapudi,涉及图像分类和目标检测两个科目。他在GitHub上最新发布了NudeNet项目,包含代码和两个预训练模型:负责识别露不露的图像分类模型和负责找出关键部位(以便打码)的目标检测模型。
量子位
2019/04/23
1.5K0
开源鉴黄AI新鲜出炉:代码+预训练模型,还附手把手入门教程
基于tensorflow实现AI图片鉴黄(NSFW)
本文介绍了一种基于深度学习的图像鉴黄方法,该方法使用OpenCV和Caffe库对图像进行鉴黄任务。首先,使用OpenCV库加载图像,并进行预处理操作,如灰度化、二值化等。然后,使用Caffe库中的卷积神经网络模型对图像进行特征提取和分类。最后,使用Python脚本来实现图像的鉴黄任务,并输出结果。该方法在测试数据集上取得了较好的效果,具有较高的准确率和实时性。
sparkexpert
2018/01/09
7.1K1
基于tensorflow实现AI图片鉴黄(NSFW)
精炼鉴黄师背后的故事
用AI来鉴别黄色图片,已经不是什么新鲜的事情。然而能够训练出一个可用的图像识别模型,其中所需要的细节知识还是值得学习的。
代码医生工作室
2019/07/05
3.4K0
精炼鉴黄师背后的故事
情人节:一本正经地为单身狗推荐这个158万张图像的鉴黄数据集
项目地址:https://github.com/EBazarov/nsfw_data_source_urls
机器之心
2019/03/06
7880
情人节:一本正经地为单身狗推荐这个158万张图像的鉴黄数据集
从人工智能鉴黄模型,尝试TensorRT优化
随着互联网的快速发展,越来越多的图片和视频出现在网络,特别是UCG产品,激发人们上传图片和视频的热情,比如微信每天上传的图片就高达10亿多张。每个人都可以上传,这就带来监管问题,如果没有内容审核,色情图片和视频就会泛滥。前不久,一向以开放著称的tumblr,就迫于压力,开始限制人们分享色情图片。更别提国内,内容审核是UCG绕不过去的坎。还记得前几年出现的职业鉴黄师这一职业么?传说百万年薪,每天看黄片看得想吐,但最近又很少有人提及这一职业,这个应监管而生的职业,因人工智能的出现又快速消亡。(当然也不是完全消亡,毕竟判断是否色情是一个主观的事情,有些艺术和色情之间的边界比较模糊,需要人工加以判断)
云水木石
2019/07/02
2K0
从人工智能鉴黄模型,尝试TensorRT优化
NSFW 图片分类
NSFW指的是 不适宜工作场所("Not Safe (or Suitable) For Work;")。在本文中,将介绍如何创建一个检测NSFW图像的图像分类模型。
deephub
2023/08/28
4650
NSFW 图片分类
手把手教你在Python中实现文本分类(附代码、数据集)
文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个或多个已定义好的类别中。文本分类的一些例子如下:
数据派THU
2018/07/30
12.7K2
手把手教你在Python中实现文本分类(附代码、数据集)
学习NestJS开发小程序后台(二)检测图片敏感内容
在当今数字化时代,小程序以其便捷、高效的特点成为了人们生活和工作中不可或缺的一部分。而在小程序开发中,上传图片功能常常是关键需求之一。然而,随着网络环境的日益复杂,确保上传的图片以及相关文本不含有敏感内容变得至关重要。今天,我们就来探讨一下如何在小程序开发中实现上传图片功能中,需要关注的内容安全监测接口进行严格的校验。
一起重学前端
2024/09/13
1600
手把手教你在多种无监督聚类算法实现Python(附代码)
本文简要介绍了多种无监督学习算法的 Python 实现,包括 K 均值聚类、层次聚类、t-SNE 聚类、DBSCAN 聚类。
数据派THU
2018/07/30
7280
手把手教你在多种无监督聚类算法实现Python(附代码)
158万张图像的鉴黄数据集
如果你想训练一个内容审核系统过滤不合适的信息,或用 GAN 实现一些大胆的想法,那么数据集是必不可少的。但限制级图像很难收集,也很少会开源。在这个项目中,作者构建了一个大型高质量图像鉴黄数据集,它有超过 158 万张图像,共分为 159 个大类别,且每一个类别还有若干子类别。另外,今天发这篇文章和情人节完全无关,和你是不是单身狗完全无关,一切是为了探索机器学习的前沿……(笑眯眯手动摸狗头)。
昱良
2019/03/07
3.1K0
手把手教你用Python库Keras做预测(附代码)
当你在Keras中选择好最合适的深度学习模型,就可以用它在新的数据实例上做预测了。但是很多初学者不知道该怎样做好这一点,我经常能看到下面这样的问题:
数据派THU
2018/07/30
2.6K1
手把手教你用Python库Keras做预测(附代码)
深度学习资源一网打尽!论文、数据集、框架、课程、图书等应有尽有
最近,GitHub上出现一份深度学习资源,涵盖深度学习的各个方面,包括论文、数据集、课程、图书、博客、教程、框架等。
量子位
2019/04/24
4330
深度学习资源一网打尽!论文、数据集、框架、课程、图书等应有尽有
手把手教你构建食物识别AI:小白轻易可上手,人气高赞有Demo | 资源
最近,工程师Nidhin Pattaniyil和Reshama Shaikh写了一篇从零开始构建网页&App版食物识别AI的教程,有数据、有教程、有Demo,简洁好懂,赢得了大批推特网友点赞。
量子位
2019/04/23
1.8K0
手把手教你构建食物识别AI:小白轻易可上手,人气高赞有Demo | 资源
Tumblr扫黄正式开始!AI鉴黄也许是老司机们的头号敌人
12 月初,美国著名图片博客网站 Tumblr 宣布将全面禁止任何成人内容。新规定将于 12 月 17 日正式施行。这一行为看来是主动在和「互联网的 30% 流量」说再见,长久混迹 Tumblr 的老司机们送了一首「凉凉」予它。
机器之心
2018/12/28
1.3K0
Tumblr扫黄正式开始!AI鉴黄也许是老司机们的头号敌人
推荐阅读
相关推荐
那个20多万“不可描述”照片的数据集,有人用它做了鉴黄模型 | Demo
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验