前方高能预警,非战斗人士请火速撤离……
今天给大家介绍一个在 github 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 nsfw data source urls,目前该项目已收获 918 star 了。
项目地址:
https://github.com/ebazarov/nsfw_data_source_urls
在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 url,以下是关于该数据集的一些统计信息:
159个 不同的类别
158.9331 万个 url
下载并清洗后大约有 500gb,或者说有 130 万张 nsfw 图像
以下为项目中图片截图示例:
注意事项:
1. 建议下载后清洗下数据集,例如:
删除重复图片
移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)
找出损坏的数据并将其删除
2. 注意噪声,一些资源提供了 nsfw 和中性图像的高度混合数据。
3. 该库还可以帮助检索 nsfw 图像,针对中性图像没有专用的 url。
值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。
揭秘新老款MacBook Pro的USB Type-C有何不同
玩转行业数字化转型|全新华为云Astro低代码平台带你起飞
FPGA设计过程中定点小数计算要注意些什么
人工智能引爆高交会!炬芯芯片被众品牌青睐
Si/NMC622锂离子电池为容量衰减的全电池解释提供了新的视角
一个在GitHub上一个开源的鉴黄图像数据集
小黄人联名电竞外设强悍来袭,Q萌小可爱惹人喜欢
如何提高隔离式电源的效率
混合信号接地的困惑根源:对多卡系统应用单卡接地概念
WJ-700无人机是国内唯一的一款高空高速长航时察打一体无人机
TPS55289:为个人电子产品有线/无线充电提供最优解决方案
聚焦信创人才培养 积蓄产业发展动力|2022年度"强国杯"智能网联技术应用赛项颁奖典礼暨信创人才发展论
Powerint LNK406EG 14W PWM-模拟调光LED驱动方案
无线通信企业七一二发布2022第一季度报告
Molex解决电动汽车充电的关键设计难题
洁净空调数据采集远程监控物联网系统
ROHM亮相“2016慕尼黑上海电子展”
肖特基势垒是什么?具有什么应用优势
汽车“芯片荒”会持续多久?
逻辑比特科技获千万种子轮融资,专注研发大规模科技