业余爱好『Favourite』 Archives

秀人美女网爬虫【Windows】【22.12.03】

2022年12月3日 49 条评论

F:\Pycharm_Projects\meitulu-spider\venv\Scripts\python.exe F:\Pycharm_Projects\meitulu-spider\xrmnw.py 
****************************************************************************************************
秀人美女网爬虫
Verson: 22.12.03
Blog: http://www.h4ck.org.cn
****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
     -a <download all site images>
     -q <query the image with keywords>
     -h <display help text, just this>
Option Arguments:
     -p <image download path>
     -r <random index category list>
     -c <single category url>
     -e <early stop, work in site crawl mode only>
     -s <site url eg: http://www.xiurenji.vip (no last backslash "/")>
****************************************************************************************************

业余爱好『Favourite』

Python3 读取Chrome cookie

2022年11月1日 2 条评论

网上搜一下，读取cookie的基本都是这份代码。我也忘了是从那里抄来的了，这里贴一下，对于最新的chrome需要修改下路径：

# chrome 96 版本以下
# filename = os.path.join(os.environ['USERPROFILE'], r'AppData\Local\Google\Chrome\User Data\default\Cookies')
# chrome96 版本以上
# filename = os.path.join(os.environ['USERPROFILE'], r'AppData\Local\Google\Chrome\User Data\default\Network\Cookies')

业余爱好『Favourite』

秀人集爬虫【22.09.04】【Windows】

2022年9月4日 100 条评论

更新日志：
22.9.4
1.调整超时时间为10秒
2.换了个进度条
3.下载异常处理可能不生效的问题
22.4.12
增加-e early stop参数，配合整站爬取使用，单独无效.如果没有完成整站爬取不要使用该参数，终止逻辑过于简单粗暴。首次爬取尽量使用批处理死循环，开多进程处理。
22.1.18
1.兼容更新后的秀人集网站，支持搜索以及全站爬取。
2.修改默认域名为https://www.xiurenji.net（暂时可以不使用-s 参数）。
22.1.20
1.修复页面异常可能导致的异常终止
22.1.24
1.增加-r参数，支持分类重拍，可以开启多个进程进行爬取。说实话就是姐姐太懒了，不想写多线程。
2.增加-c参数，支持爬取特定分类，请直接-c 分类地址。具体参数见下方使用说明。

业余爱好『Favourite』

微图坊爬虫 [Chrome Support]【22.09.04】【Windows】

2022年9月4日 103 条评论

更新记录：
1. 修复了地址中由于/引起的404问题。

业余爱好『Favourite』

全国统计用区划代码和城乡划分代码[爬虫代码]【Json+CSV格式】

2022年8月31日 3 条评论

页面地址：http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/11/01/01/110101001.html 最近需要使用最新的行政区划信息，虽然统计局公开了相关的数据，但是并没有提供数据文件。于是，就写了个爬虫把所有的数据爬取了一遍。生成的默认数据格式为json，另外提供了一个工具来把json转成csv。

业余爱好『Favourite』

微图坊爬虫 [Chrome Support]【22.08.21】【Windows】

2022年8月21日 10 条评论

更新记录：
1.修复部分页面链接失效导致创建目录之后不能下载的问题；
2.修复登录模式下超出浏览次数导致下载失败的问题，提前结束进程；

日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

秀人美女网爬虫 【Windows】【22.12.03】

Python3 读取Chrome cookie

秀人集爬虫 【22.09.04】【Windows】

微图坊爬虫 [Chrome Support]【22.09.04】【Windows】

全国统计用区划代码和城乡划分代码[爬虫代码]【Json+CSV格式】

微图坊爬虫 [Chrome Support]【22.08.21】【Windows】

秀人美女网爬虫【Windows】【22.12.03】

秀人集爬虫【22.09.04】【Windows】