首页 > 互联网> 文章详细

yuanhsh's blog: 如何用30行代码爬取Google Play 100万个App的数据

2018-09-30 10:56:27 阅读：822 来源： 互联网

标签：

Scrapy

（

中文文档

）是一个 Python 爬虫框架，它帮开发者做了绝大多数爬虫需要做的基础工作:

内置元素选择器
序列化和存储数据
处理cookie、HTTP头这些东西的中间件
爬取 Sitemap 或者 RSS

我的需求是爬取 Google Play 市场上的所有 App 的页面链接以及下载数量。

首先确保配置好 Python 2.7, MongoDB 数据库, 以及 Python 的 pip 包管理系统。

然后安装对应的 Python 包并且生成项目模板：

pip install scrapy scrapy-mongodb 
scrapy startproject app
cd app
scrapy genspider google

然后把 app/spider/google.py 换成下面的内容：

`# -*- coding: utf-8 -*-
import scrapy

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.linkextractors import LinkExtractor
from app.items import GoogleItem


    class GoogleSpider(CrawlSpider):
        name = "google"
        allowed_domains = ["play.google.com"]
        start_urls = [
            'http://play.google.com/',
            'https://play.google.com/store/apps/details?id=com.viber.voip'
        ]
        rules = [
            Rule(LinkExtractor(allow=("https://play\.google\.com/store/apps/details", )), callback='parse_app',follow=True),
        ] #  CrawlSpider 会根据 rules 规则爬取页面并调用函数进行处理


        def parse_app(self, response):
            # 在这里只获取页面的 URL 以及下载数量
            item = GoogleItem()
            item['url'] = response.url
            item['num'] =  response.xpath("//div[@itemprop='numDownloads']").xpath("text()").extract()
            yield item

在 app/items 里添加下面的代码：

class GoogleItem(scrapy.Item):
    url = scrapy.Field()
    num = scrapy.Field()

在 app/setting.py 里面添加下面的代码

# 这里是配置 scrapy-mongodb 到数据库的连接，用于自动把爬取后的数据存入到 MongoDB
ITEM_PIPELINES = [
     'scrapy_mongodb.MongoDBPipeline',
]

MONGODB_URI = 'mongodb://127.0.0.1:27017'
MONGODB_DATABASE = 'scrapy'
MONGODB_COLLECTION = 'play'

然后，没有其他工作了。。连配置文件一共不到四十行。之后开启 MongoDB，在项目目录下运行

 scrapy crawl google -s JOBDIR=app/jobs

然后就静静等它跑完吧。-s JOBDIR=app/jobs 参数的意思是把工作状态和已经爬取过的页面数据存到 app/jobs 目录下，即使中间中断了，也可以运行上面的命令从该目录恢复工作，而不用重新开始。

`> use scrapy
switched to db scrapy
> db.play.count()
1564754
> db.play.find().limit(1)
 "_id" : ObjectId("55479d9da28a7c1cca449c23"), "url" : "https://play.google.com/store/apps/details?id=com.viber.voip", "num" : [ "  100,000,000 - 500,000,000  " ]() 
>

同时我也写了其他国内市场的爬虫，目前还在不断完善中，有需要的朋友可以看看。

此外推荐两个更值得学习的 Scrapy 爬虫项目：

From:

http://www.jianshu.com/p/411b20a5ce55

标签：
来源： http://yuanhsh.blogspot.com/2015/07/30google-play-100app.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

yuanhsh's blog: 如何用30行代码爬取Google Play 100万个App的数据