国内一位开发者在 github 上开源了个集众多数据源于一身的爬虫工具箱——infospider,一不小心就火了!!!
有多火呢?开源没几天就登上github周榜第四,标星1.3k,累计分支172个(github地址:https://github.com/kangvcar/infospider) 在这样一个信息爆炸的时代,每个人都有很多个账号,账号一多就会出现这么一个情况:个人数据分散在各种各样的公司之间,就会形成数据孤岛,多维数据无法融合,这个项目可以帮你将多维数据进行融合并对个人数据进行分析,这样你就可以更直观、深入了解自己的信息。 infospider 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。
目前支持数据源包括github、qq邮箱、网易邮箱、阿里邮箱、新浪邮箱、hotmail邮箱、outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、qq好友、qq群、生成朋友圈相册、浏览器浏览历史、12306、博客园、csdn博客、开源中国博客、简书。 根据创建者介绍,infospider 具有以下特性:
安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。
使用简单:提供 gui 界面,只需点击所需获取的数据源并根据提示操作即可。
结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 spiders 文件下。
数据源丰富:本项目目前支持多达24+个数据源,持续更新。
数据格式统一:爬取的所有数据都将存储为json格式,方便后期数据分析。
个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。
数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。
infospider使用起来也非常简单,你只需要安装python3和chrome浏览器,运行 python3 main.py,在打开的窗口点击数据源按钮, 根据提示选择数据保存路径,接着输入账号密码,就会自动爬取数据,根据下载的目录就可以查看爬下来的数据。 是不是很简单呢,如果你对infospider也感兴趣,赶紧试一下。
未来十年我国正规化建设小型的国际月球科研站
英人工智能研讨会举行_硬件厂商成为AI研讨会要角
什么是调频(FM)、调幅(AM)、短波(SW)、长波(LW)
物联网有望为企业和员工提供重要的价值主张
iphone5采用nano-SIM卡 普通SIM卡不能剪成nano-SIM卡
GitHub上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider
物联网芯片有哪些种类
交换机的基本配置
【虹科方案】虹科数字化仪——机械测量的最佳方案!(二)
远离蚊子骚扰,灭蚊灯有效果吗
华为Mate9安兔兔跑分:Mali-G71性能已全面超越Adreno530?
电源技巧分享:一个用于驱动栅极驱动变压器的简单电路
东芝推出全新单通道SPDT总线开关IC
讨论MOSFET数据表中显示的安全工作区域区域SOA
自动化工业控制给我们带来的影响是什么
浅谈商业建筑应急疏散指示系统的设计与产品选型
自动驾驶与乘客经济分析
嵌入式工控机和传统工控机性能有什么区别?
分布式存储隐藏的五大谎言你都了解吗
接触器提升灭弧能力助力电池向高电压发展