标签:hadoop 查询 Streaming 计算 Spark 初始 生态圈
参考网址:https://www.cnblogs.com/qingyunzong/p/8886338.html
Spark是基于内存的计算框架
1.为什么要学习Spark?
可以解决迭代计算,融入hadoop生态圈,弥补mr计算框架的不足
2.特点
(1)speed 速度快
基于内存计算,使用有向无环图(DAG)程序调度,查询优化器,物理执行器。速度比mr快100倍
(2)ease of use 容易使用
支持scala,java,python编程
(3)generality 通用
Spark提供了统一的解决方案:批处理,交互式查询(Spark SQL),实时流处理(Spark Streaming),机器学习(Spark MLIb)和图计算(GraphX)
(4)runs everywhere 兼容性好
自带standalone资源管理和任务调度器,同时可以兼容hadoop的yarn和apache的mesos
可以兼容hadoop生态圈,如hdfs,hive,hbase
3.Spark的组成
Spark Core:Spark核心,类似于MR,对数据进行离线处理,批处理
Spark SQL:交互式查询
Spark Streaming :流式处理框架
Spark MLib:机器学习
GraphX:图计算
标签:hadoop,查询,Streaming,计算,Spark,初始,生态圈 来源: https://www.cnblogs.com/lina-2015/p/14376526.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。