更新日志:
22.4.12
增加-e early stop参数,配合整站爬取使用,单独无效.如果没有完成整站爬取不要使用该参数,终止逻辑过于简单粗暴。首次爬取尽量使用批处理死循环,开多进程处理。
22.1.18
1.兼容更新后的秀人集网站,支持搜索以及全站爬取。
2.修改默认域名为https://www.xiurenji.net(暂时可以不使用-s 参数)。
22.1.20
1.修复页面异常可能导致的异常终止
22.1.24
1.增加-r参数,支持分类重拍,可以开启多个进程进行爬取。说实话就是姐姐太懒了,不想写多线程。
2.增加-c参数,支持爬取特定分类,请直接-c 分类地址。具体参数见下方使用说明。
使用参数:
****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
-a <download all site images>
-q <query the image with keywords>
-h <display help text, just this>
Option Arguments:
-p <image download path>
-r <random index category list> (该参数会重新排列分类列表,可以开启多个进程同时进行爬取)
-c <single category url> (支持单分类爬取,如果只想爬取某一个分类请使用该参数)
-e <early stop, work in site crawl mode only> (配合整站爬取使用,多次检测到已经下载自动跳过该分类)
-s <site url eg: http://www.xiurenji.vip (no last backslash "/")>
*************************************************************************************