ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

爬虫动态采集

2022-01-16 23:59:38  阅读:179  来源: 互联网

标签:column name temp df 爬虫 采集 动态 data contents


爬取各地区gdp数据并保存

import requests
import json.encoder
import pandas as pd
import matplotlib.pyplot as plt
# 获取数据
def getData():
    headers = {
        'Connection': 'keep-alive',
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'X-Requested-With': 'XMLHttpRequest',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36',
        'Sec-Fetch-Site': 'same-origin',
        'Sec-Fetch-Mode': 'cors',
        'Referer': 'https://data.stats.gov.cn/easyquery.htm?cn=E0103',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'zh-CN,zh;q=0.9',
    }

    params = (
        ('m', 'QueryData'),
        ('dbcode', 'fsnd'),
        ('rowcode', 'reg'),
        ('colcode', 'sj'),
        ('wds', '[{"wdcode":"zb","valuecode":"A020101"}]'),
        ('dfwds', '[]'),
        ('k1', '1625471171166'),
    )

    # 1、获取数据
    response = requests.get('https://data.stats.gov.cn/easyquery.htm', headers=headers, params=params, verify=False)

    # 2、解析数据
    data=json.loads(response.content)
    name=data['returndata']['wdnodes'][0]['nodes'][0]['cname']
    datanodes=data['returndata']['datanodes']
    columns=data['returndata']['wdnodes'][2]['nodes']
    rows=data['returndata']['wdnodes'][1]['nodes']

    # 3、写入数据
    # 数据标题
    column=[]
    column.append(name)
    for temp in columns:
        column.append(temp['cname'])
    
    temp_contents=[]
    index=0
    for row in rows:
        temp_content=[]
        temp_content.append(row['cname'])
        for i in range(index,index+10):
            temp_content.append(datanodes[i]['data']['data'])
        index+=10
        temp_contents.append(temp_content)
    return column,temp_contents,name

# 保存数据
def save_csv(path,column,temp_contents):
    df=pd.DataFrame(temp_contents,columns=column)
    df.to_csv(path,mode='w',index=False,encoding='utf-8')
def get(path):
    df_year=['2020','2019','2018','2017','2016','2015','2014','2013','2012','2011']
    df=pd.read_csv('地区生产总值.csv')
    for i in range(31):
        area=df.loc[i]
        title=area[0]
        df_data=[]
        for i in range(1,11):
        
            df_data.append(area[i])
        plt.rcParams['font.sans-serif']=['SimHei']
        plt.title(title)
        plt.plot(df_year, df_data,)
        plt.show()
if __name__ == "__main__":
    # 获取数据
    column,temp_contents,name=getData()
    path=name+'.csv'
    # 保存数据
    save_csv(path,column,temp_contents)
    get(path)

标签:column,name,temp,df,爬虫,采集,动态,data,contents
来源: https://blog.csdn.net/qq_50859962/article/details/122531297

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有