最近突然看到一份在Github上流传出来的数据集,专门用来训练识别不可描述内容的神经网络的。
其实这种需要,对于大的平台网站是一直都需要的。
原来这事都是要一群心理素质相对不错的人来干(宣传),实际上呢,就是在摧毁一小堆人的心理幸福,让他们天天看这种内容到吐。来得到一个平台相对稳定的内容审核,这样的东西在大部分人来看是适当的牺牲。在我看来是技术人的耻辱。一个本来就应该是技术解决的问题,为什么要牺牲人的幸福呢?
你能想像一下天天看这种东西看到吐,以后的幸福生活?
当然了,也不能否认这东西的技术难度与尺度灵活性的把握是很难的。
比如上面这张图,在某一年的节目里标准是要打上马赛克的,真的很难想像这样一个著名的雕像怎么就。。。。。。。我们就生活在这样一个神奇的世界嘛。
好了,上地址:
https://github.com/alexkimxyz/nsfw_data_scrapper
我看了一下,里边分成 porn, hentai, sexy, drawings, neutral几个类别。
用作者的说法, porn与sexy, hentai与drawings是很容易混淆的。
我在看了其中的几张内容图后发现,确实是这样的。
所以,努力吧技术君。
领取专属 10元无门槛券
私享最新 技术干货