大数据采集处于大数据生命周期的第一个环节,对于大数据分析和应用起着至关重要的作用
大数据采集是指从传感器和智能设备,以及企业系统、社交网络和互联网平台等渠道获取数据的过程。
这些数据来源广泛、种类繁多、数据量巨大且产生速度快、传统数据采用方法难以胜任,因此产生了新的数据采集方式----基于大数据的采集技术。除解决上述传统数据采集方法难以解决的问题以外,大数据采集技术还要保证数据采集的可靠性、高效性,而且要避免重复数据。
根据数据源的不同,发数据采集通常可以分为以下3类
1.系统日志采集
系统日志采集主要是收集企业业务平台日常产生的大量日志数据,以供后续离线和在线大数据分析系统使用。高可用性、高可靠性和可扩展性是日志收集系统所具有的基本特征
目前,常用的开源日志采集系统有Flume、Scribe和Kafka等。
其中,Flume是Cloudera提供的一个高可用、高可靠、分布式的日志采集、聚合和传输系统。Scribe是Facebook开源的日志收集系统,为日志的分布式收集和统一处理提供可扩展、高容错的解决方案
Kafka是Apache开源的一种高吞吐量的分布式发布订阅消息系统,使用于大流量的日志采集
2.网络技术采集
网络爬虫
3.其他数据采集
标签:系统,采集,开源,2.2,日志,数据,分布式 来源: https://blog.csdn.net/weixin_45334173/article/details/122525032
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。