ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

哪个爬虫框架好”简单对比”

2019-09-03 16:54:26  阅读:280  来源: 互联网

标签:框架 项目 痛点 爬虫 简单 对比 WebMagic


 

  对于爬虫框架本身来说,都是很优秀的,说那个更好,不如说那个更适合公司的业务需求。比如javaweb项目中需要某些网站的金融系列新闻,得每天定时去抓取一些数据,你就可以考虑WebMagic框架,能够轻松的将爬虫代码逻辑模块化到项目中,毫无违和感。当然也可以是别的框架,只要合适就好(以上爬虫框架就不介绍了,真要说说,估计得长篇大论了.....可以查阅相关资料进行详细的了解)。

  这些开源的爬虫框架大都是把复杂的问题解决掉,然后封装,在之后就是我们用的很简单、方便,不必考虑那些URL去重、代理、线程池管理等等问题,当然建议看看源码多想想他们的设计思想以及实现逻辑

  我们在以前项目中用的爬虫框架是java语言的WebMagic和python语言的PySpider。普通java爬虫项目中都可以多多考虑WebMagic和WebCollector绝对够用(反正用啥都得考虑动态js抓取,图片验证码识别等等那些反爬虫机制,这一定是个持久战,哈哈),上手简单易扩展,注重业务开发就好。如果大型分布式、业务够复杂、需求点够多、数据够庞大下的估计用哪个框架也得进行二次扩展了。所以选那个框架不必那么纠结。

  另外搞爬虫不得不推荐python了,易学,语法简单,一个简单的爬虫程序可能半个小时就搞定了。虽然在调试上很费时间,但是当有一定经验了,很多问题就可以规避掉或者bug定位很快。当然也有痛点,但是这些痛点对于整个项目成本来说完全可以接受。

  

   

业精于勤荒于嬉。

标签:框架,项目,痛点,爬虫,简单,对比,WebMagic
来源: https://www.cnblogs.com/dbl-bls-400/p/11454010.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有