ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

在 Google Colab 中运行 Selenium WebDriver

2022-08-29 17:02:21  阅读:195  来源: 互联网

标签:WebDriver Google 浏览器 Selenium 抓取 Colab


在 Google Colab 中运行 Selenium WebDriver

Photo by 克里斯·里德 on 不飞溅

如果您需要在 Google Colab 中为您的分析项目抓取数据,则无需事先构建单独的网络抓取工具。

与其将 Google Colab 视为 Ipython Notebook,不如将其视为一个成熟的计算单元。您不仅可以执行 Python 代码、HTML 或 LaTeX,还可以在 Colab 中执行 Bash 命令。这反过来又使我们能够在 Colab 中安装 Selenium 和 WebDriver。

好的,但我为什么需要它?

在另一个计算单元上部署网络爬虫 释放您的本地计算机计算资源和互联网连接 .如果你跑 Selenium 多线程 ,有时由于后台运行的并发实例数量,程序可能会占用千兆字节的 RAM。如果您使用较旧的机器或没有足够的 RAM,则使用云上的计算单元可以为您提供很大帮助。此外,您现在可以使用您的机器完成另一项任务,同时等待网络抓取工具完成其工作。

Colab 还使用 Google 的互联网连接来运行请求和获取数据。这意味着您不必花费自己的带宽来获取所有成千上万的 HTML 页面、CSS 样式表和 JS 脚本。如果您在偏远的地方并且没有非常可靠的互联网连接,这将特别有用。但是,如果您这样做,此技术会释放您的带宽,并让您完成 Warzone 的 100GB 更新……或任何其他需要您分享带宽的任务。

最重要的是,Colab 是免费的。没有什么能打败它。

这个怎么运作

让我们从使用开始 易于 & PIP 通过编写下面的代码来安装 Selenium 和 WebDriver。请注意,这三个命令前面是 因为之后出现的任何东西 on a line 将由系统命令行执行。

Code for installing Selenium and WebDriver in Colab.

一切都安装好后,在 Colab 中一切照旧。就像在本地机器上一样编写 Selenium 代码。让我们通过抓取印度尼西亚最大的电子商务网站之一 Tokopedia.com 的页面源来测试一下。

首先,让我们使用正确的选项设置 WebDriver。下面的代码将 WebDriver 设置为无头模式,同时也使其不同于人工操作的浏览器。这些设置来自这个 博文 来自 webscraping.pro 的 Igor Savinkin,他提出了一个绝妙的主意,即针对人工操作和自动浏览器测试参数和设置,看看指纹程序是否可以区分两者。

Driver setup options for Selenium.

并编写一些代码来返回页面源。

A small code that returns a page source.

现在,如果我们尝试运行代码..

Selenium successfully returns HTML of Tokopedia. Actually there is no need to prettify the source like I do.

瞧!我们得到 HTML。容易,对吧?

等等,我仍然无法运行 Selenium!

标签:WebDriver,Google,浏览器,Selenium,抓取,Colab
来源: https://www.cnblogs.com/amboke/p/16636497.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有