ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

利用爬虫解决公众号阅读的一个小障碍

2021-07-13 16:59:00  阅读:141  来源: 互联网

标签:resp 爬虫 proxyMeta 公众 https 文章 障碍 数据


在这个各种短视频爆红的时代,很多人已经把微信公众号丢弃了,不过我还是比较喜欢看公众号的,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章。但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦。
于是便想着能不能把某个公众号所有的文章都保存下来,这样就很方便自己阅读历史文章了。刚好自己又是做数据采集工作的,那这件事还不简单吗?
今天就跟大家分享下通过使用 Python 脚本获取公众号所有历史文章数据,获取公众号号数据是有以下3个步骤:
1 使用 Fiddler 抓取公众号接口数据
2 使用 Python 脚本获取公众号所有历史文章数据
3 保存历史文章
今天就重点分享下使用 Python 脚本获取公众号所有历史文章数据,这里重点提一下,网站封ip比较严重,所以需要提前准备好高质量代理,不然就采集不到数据啦。
今天的代码示例如下:

 #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "https://mp.weixin.qq.com/"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://mp.weixin.qq.com/"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

采集到的数据我们保存下来经过处理就可以啦,那么关于用python爬取公众号的方法就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

标签:resp,爬虫,proxyMeta,公众,https,文章,障碍,数据
来源: https://blog.csdn.net/ssbt_2020/article/details/118703900

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有