ICode9

精准搜索请尝试: 精确搜索
  • 《蚁人2》豆瓣影评爬虫+简单情感分析+词云2019-06-20 21:54:40

    打算把豆瓣上的短评爬下来作为分析的素材。 然而并没有成功爬到所有的短评,一波三折,最终只爬到了500条,当然这也是豆瓣目前可见的最大数量,本文将细致分析爬虫的整个过程,并对爬到的数据加以分析,蚁小见大。   整篇文章共包含爬和文本分析两部分,因为爬到的数据包含信息较少,所以分

  • 第四天 爬取豆瓣电影top2502019-06-16 21:43:18

    1 ''' 2 爬取豆瓣电影top250 3 4 Request URL: 5 https://movie.douban.com/top250 6 7 Request Method: 8 GET 9 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari

  • 豆瓣电影top250bs4+requests2019-06-10 20:51:53

    import requests from bs4 import BeautifulSoup import re #获取html页面信息 def getHTMLText(url): #模拟用户访问 kv = {‘user-agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36’} t

  • selenium 模拟登陆豆瓣,爬去武林外传的短评2019-06-09 11:43:41

    selenium 模拟登陆豆瓣,爬去武林外传的短评:   在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是采用了selenium来模拟浏览器爬取。   豆瓣登陆也是改了样式,我们可以发现登陆页面是在另一个

  • python 下载豆瓣上一个小电影预告片2019-06-08 10:54:18

      #coding=utf-8 import sys import  io  sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') import requests from bs4 import BeautifulSoup from tqdm import tqdm def get_video_url():     url = "https://movie.douban.com/trailer/

  • 【知乎】Java书单2019-05-30 20:40:04

    有时间主要看看格局之外的书和Java之外的那几本,Java书这么多,我肯定也看不过来,浪潮之巅正在看,挺好的.. 作者:老刘链接:https://www.zhihu.com/question/29581524/answer/684872838来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Java开发者职业生涯要

  • 爬取豆瓣高分电影2019-05-30 14:44:42

    import requestsfrom bs4 import BeautifulSoupimport timeimport reimport jsonimport csvurls=[]tc=['名字','评分','导演','演员','时长']with open('C:\\Users\\lenovo\\Desktop\\go1.csv', 'a+', n

  • 一张图搞定OAuth2.02019-05-19 19:48:10

    1、引言 本篇文章是介绍OAuth2.0中最经典最常用的一种授权模式:授权码模式 非常简单的一件事情,网上一堆神乎其神的讲解,让我不得不写一篇文章来终结它们。 一项新的技术,无非就是了解它是什么,为什么,怎么用。至于为什么,本篇文章不做重点探讨,网上会有各种文章举各种什么丢钥匙、发船

  • Java开发者职业生涯要看的200+本书2019-05-14 16:54:25

    入门书籍 基础书籍 多线程与并发 网络编程 数据结构 语言基础 进阶 性能优化 响应式编程 JVM虚拟机 代码&设计优化 设计模式 框架与中间件 数据库 缓存与NoSQL 消息队列 ORM框架 Spring家族 高并发 分布式 搜索引擎 大数据 架构 分布式架构 微服务架构 架构方法论 JVM周边

  • 接口测试(一)常见接口类型2019-05-09 10:47:44

    接口是指外部系统与系统之间以及内部各子系统之间的交互点。包括外部接口、内部接口,内部接口又包括:上层服务与下层服务接口、同级接口。常见web接口:一类是http协议的接口,另一类是web service接口(如soup、rmi、rpc协议)。本文主要介绍http请求接口。常见的http请求方式包括:get(查)、pos

  • 引用豆瓣图片,手机上不能显示2019-05-02 14:55:44

    引用豆瓣图片,手机上不能显示 问题描述 在做一个个人页面时,引用了豆瓣读书里面书籍封面图片。但是出现一个现象:在web端可以显示的图片,在手机上却不能正确的加载出来。 原因 豆瓣API请求是有限制的,约为每分钟40次,超过了这个次数就要被限制,限制为每分钟10次。所以,如果网页上引用了大

  • 分布式消我爬取豆瓣10万短评,告诉你《复仇者联盟4》在讲什么?2019-04-29 16:43:36

           前言   昨晚,焚香、沐浴、更衣!怀着朝圣般的心情。就像灭霸一样!去看了妇联4的终局之战。不得不说,票价有点小贵,整体效果还算可以,就是剧情有点懵逼。中间眯了几下(时长真的有点长),本来想玩玩手机,环顾四周看大家都这么认真的样子,默默的收了起来,请原谅我这小白。   截

  • 爬取豆瓣电影剧情片排行榜2019-04-27 21:51:54

    学习到request模块,我们使用学到的技巧来抓取豆瓣电影的排行榜 1 分析接口 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=20&limit=20' 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&acti

  • 豆瓣爬虫,用pandas分析。2019-04-24 09:44:34

    import requestsfrom bs4 import BeautifulSoupimport reimport pandasheaders = { 'Host':'movie.douban.com', 'Origin':'movie.douban.com', 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Bu

  • 前端书籍分享2019-04-19 09:49:34

    小编推荐:Fundebug提供JS错误监控、微信小程序错误监控、微信小游戏错误监控,Node.j错误监控和Java错误监控。真的是一个很好用的错误监控费服务,众多大佬公司都在使用。 好久没有更新文章了,忘了那个小兄弟跟我要书了,你们要的留言,我分享了 JavaScript 《JavaScript高级程序设计

  • python每日一题:爬虫豆瓣图书信息2019-04-19 09:39:18

    目标:尽可能快的爬虫完毕 核心思想: 方案一: # -*- coding: UTF-8 -# 爬取豆瓣网站关于python的书籍,爬虫完一页后,点击后页菜单循环爬虫# 缺点:逐页点击并获得数据较费时import timefrom selenium import webdriverclass url_surf(object): def surf_web(self, url): num =

  • python 模拟豆瓣登录(豆瓣6.0)2019-04-17 12:53:52

    最近在学习python爬虫,看到网上有很多关于模拟豆瓣登录的例子,随意找了一个试了下,发现不能运行,对比了一下代码和豆瓣网站,发现原来是豆瓣网站做了修改,增加了反爬措施。 首先看下要模拟登录的网站: 打开开发者模式:   在账号和密码随意填入数据: 发现会发送一个post请求: ur是:https://

  • 06、豆瓣爬虫2019-04-11 20:52:03

        把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来       URL  https://movie.douban.com/top250?start=   1 #6、豆瓣爬虫 2 # 把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来 3 #

  • 豆瓣电影的API接口,马克一下2019-04-10 19:53:22

    文字摘抄 1、获取正在热映的电影: 接口:https://api.douban.com/v2/movie/in_theaters 访问参数: start : 数据的开始项 count:单页条数 city:城市 如:获取 广州热映电影 第一页 10条数据: https://api.douban.com/v2/movie/in_theaters?city=广州&start=0&count=10 返回数据格式:(这里

  • 爬取豆瓣电影Top2502019-04-07 20:52:11

    1.1 爬虫基本原理   爬虫是模拟用户(User),向服务器(Server)发送请求(Request),获取响应(Response)的程序(Program)。 1.2 请求(Request)   1.2.1请求方式     请求常用的方式有get与post方式     post常用于表单提交   1.2.2请求头     请求头包括提交请求

  • python:从豆瓣的反爬说说自建代理池2019-04-04 15:55:09

    豆瓣的反爬 我们先来真实地感受一下豆瓣的反爬。假如我们有这样一个豆瓣的爬虫,这个爬虫是要爬取豆瓣上某几个标签页下的图书的数据(像下面这样的页面里的数据) 爬虫的代码如下(这里只是为了展示豆瓣的反爬机制,代码作了简化) 上面的爬虫会爬取SQL、数据分析和计算机这三个标签下的

  • python爬取豆瓣新书清单2019-04-02 16:55:49

    使用python3的requests库快速获取豆瓣图书推荐的新书清单,并保存书籍信息和图书缩略图图片到本地 #!/usr/bin/env python # -*- coding:utf-8 -*- """ @author:Aiker Zhao @file:douban3.py @time:上午10:34 """ import json import os import re from multiprocessing import Poo

  • 总以为猜对了结局,但烧脑推理电影却总是让我扭伤腰2019-03-29 17:48:06

    烧脑推理电影总是势不可挡,你觉得自己已经猜到了开头,但你没有预料到最终的逆转。 正因为如此,测试智商的悬念类电影一直都是大家比较热情的类别,今天水母电影网小编推荐4部“高智商决斗”电影,随便看一部,都觉得自己智商欠费! 4部“高智商对决”电影,随便看完一部,都觉得自己智商欠费!

  • 关于pip下载源的问题2019-03-28 10:53:54

    pip没有切换为豆瓣源之前经常出现下载不了模块的问题 按照网上的方法切换为豆瓣源后,虽然可以下载,但是速度好像也不是很快。所以这里留下一个备用命令以备不时之需   pip install package -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

  • 微信小程序“豆瓣电影”2019-03-19 09:48:01

    代码 app.json{ "pages":[ "pages/index/index", "pages/movie/movie", "pages/search/search", "pages/profile/profile" ], "window":{ "navigationBarBackgroundColor": "#35

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有