
页面地址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/11/01/01/110101001.html 最近需要使用最新的行政区划信息,虽然统计局公开了相关的数据,但是并没有提供数据文件。于是,就写了个爬虫把所有的数据爬取了一遍。生成的默认数据格式为json,另外提供了一个工具来把json转成csv。

页面地址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/11/01/01/110101001.html 最近需要使用最新的行政区划信息,虽然统计局公开了相关的数据,但是并没有提供数据文件。于是,就写了个爬虫把所有的数据爬取了一遍。生成的默认数据格式为json,另外提供了一个工具来把json转成csv。
Change Log:
1. Install newst chrome before use this program. 2. Open chrome and login to v2ph.com 3. The spider will auto stop after crawl 16 albums
Usage:
(venv) PS F:\Pycharm_Projects\meitulu-spider> python .\v2ph.py
Arguments:
-a <download all site images>
-q <query the image with keywords>
-h <display help text, just this>
Option Arguments:
-p <image download path>
-r <random index category list>
-c <single category url>
-e <early stop, work in site crawl mode only>
-s <site url eg: https://www.v2ph.com (no last backslash "/")>
****************************************************************************************************

****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
-a <download all site images>
-q <query the image with keywords>
-h <display help text, just this>
Option Arguments:
-p <image download path>
-r <random index category list>
-c <single category url>
-e <early stop, work in site crawl mode only>
-s <site url eg: https://www.v2ph.com (no last backslash "/")>
****************************************************************************************************

使用参数:
****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
-a <download all site images>
-q <query the image with keywords>
-h <display help text, just this>
Option Arguments:
-p <image download path>
-r <random index category list>
-c <single category url>
-e <early stop, work in site crawl mode only>
-s <site url eg: https://www.v2ph.com (no last backslash "/")>
****************************************************************************************************

晚上想修改python的代码,结果打开pycharm直接报错了。
Windows PowerShell
版权所有 (C) Microsoft Corporation。保留所有权利。
尝试新的跨平台 PowerShell https://aka.ms/pscore6
无法加载文件 F:\Pycharm_Projects\meitulu-spider\venv\Scripts\activate.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID=135170 中的 about_Execution_Policies。
+ CategoryInfo : SecurityError: (:) [],ParentContainsErrorRecordException
+ FullyQualifiedErrorId : UnauthorizedAccess
PS F:\Pycharm_Projects\meitulu-spider>
参数说明:
****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
-a <download all site images>
-q <query the image with keywords>
-h <display help text, just this>
Option Arguments:
-p <image download path>
-s <site url eg: http://www.xiurenji.vip (no last backslash "/")>
****************************************************************************************************