ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

网站镜像工具

2020-02-22 19:43:30  阅读:235  来源: 互联网

标签:tmp bin 配置文件 网站 sh ini 镜像 工具 bash


简介

将一个网站的镜像到本地,主要用于学习和提升,涉及到python,数据库,多线程,锁,字符编码,http规范等知识点。目前仅在linux平台测试运行过。

功能:

  1. 本程序目前支持断点下载,就是如果程序在运行中意外终止,重新运行就可以继续恢复到之前状态,不用重新再去运行程序。

  2. 支持多配置文件,通过在程序运行时指定不同的配置文件,就可以通过运行多个不同的任务并行下载.

  3. 通过自定义线程池,可达到在所有链接访问一遍之后,自动停止运行并推出。

  4. 编码自适应,通过解析response响应头的数据和网页中的meta信息来筛选出最符合当前网页的编码

  5. 不仅能够解析出html中的url,同时也支持解析css中的URL

  6. 可指定运行目录,如果指定运行目录,在数据和日志就会输出到指定目录下

环境配置

  1. 系统:Linux 或 Mac OS

  2. 数据库: mysql

  3. Python3, pip3, 开发环境是3.6.4

使用方式

  1. 首先需要初始化环境,通过运行 bin/init.sh脚本来初始化环境, 目的是创建mysql数据库和表,初始化python3虚拟环境

  2. 配置文件, 主要关注site::key, site::domain, site::start_urls, site::thread_cnt, log::path, mysql:

    标签:tmp,bin,配置文件,网站,sh,ini,镜像,工具,bash
    来源: https://blog.csdn.net/jiangxiaoma111/article/details/104448878

    本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
    2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
    3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
    4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
    5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有