Android Thirdpart sdk scraper 用来爬取仓库的第三方sdk信息。这个使用go重写了LibScout内的脚本下载。目的是提取Android thirdpart sdk的特征用于标识第三方sdk信息,目前这个仓库主要爬取以下仓库,可以同时支持10个并发下载
- maven
- jcenter
在爬取完成后,可以使用LibScout 进行特征提取写入profiles内,为libscout 分析sdk特征信息做准备。
除一些官方的sdk外,还有一些不公开的sdk,例如人脸识别等,这种可以通过人工收集部分来源作为资料参考。
执行 go run main.go可以在当前目录下生成download-lib-repos 同时按照分类进行保存,如下

为了防止爬取时被封ip等,目前将并发限制在了3 如果要调整,可以修改download/downloader.go内的MAX_POOL字段
const (
MAX_POOL = 3 //同时支持3个协程执行即可
)如果想要爬取更快,可以调整该数值即可。