ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Scrapy入门

2022-02-18 16:03:12  阅读:151  来源: 互联网

标签:www 入门 xxx scrapy Scrapy 日志 解析 com


简介

安装与使用

安装scrapy

键入命令即可

$ pip install scrapy

初步使用

新建项目

在想要创建工程的文件夹目录下面,键入命令:

scrapy startproject projectName

projectName为项目的名字

创建一个爬虫文件

进入工程目录当中,在spiders子目录中创建一个爬虫文件:

scrapy genspider spiderName www.xxx.com

爬虫文件解析

import scrapy

class FirstSpider(scrapy.Spider):
  name='first'
  # 允许的域名
  # 用来限定start_urls列表中那些url可以进行请求发送
  allowed_domains = ['www.xxx.com']
  # 起始的url列表
  # 该列表中存放的url会被scrapy自动进行请求的发送
  start_urls = ['http://www.xxx.com/']

  # 用作数据解析
  # response参数表述的是请求成功后对应的相应对象
  def parse(self, response):
    pass

settings配置

关闭robots.txt

在settings中,scrapy默认开启了遵从robots.txt这一反爬的君子协议。
我们在学习阶段将其关掉。

更改 USER_AGENT

复制浏览器中的USER_AGENT赋给USER_AGENT变量。

执行工程

scrapy crawl spiderName

输出中有很多日志影响我们查找我们需要的信息,如果不打印日志,可以使用下述方式执行工程:

# 不打印日志
scrapy crawl spiderName --nolog

然而,这样存在一个问题。也就是,当程序存在错误的时候,依然不会显示出来。
所以,我们推荐使用下述的方式来隐藏一些不必要的日志信息:

# 只打印错误日志
LOG_LEVEL = 'ERROR'

scrapy数据解析

和xpath语法基本一致。

scrapy持久化存储

当解析到网页内容后,我们需要进行持久化操作。

基于终端指令

只可以将parse方法的返回值存储到本地的文本文件中。

$ scrapy crawl xxx -o filePath

持久化存储对应的文本文件类型只可以为json、jsonlines、jl、csv、xml、marshal、pickle

基于管道

编码流程

数据解析

封装存储为item对象

标签:www,入门,xxx,scrapy,Scrapy,日志,解析,com
来源: https://www.cnblogs.com/Gazikel/p/15909023.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有