ICode9

精准搜索请尝试: 精确搜索
首页 > 数据库> 文章详细

spark(19)sparksql概述及其四大特性

2020-08-25 05:32:30  阅读:355  来源: 互联网

标签:Shark 19 数据源 兼容 sparksql SQL spark Spark


sparksql概述

sparksql的前世今生

  • Shark是专门针对于spark的构建大规模数据仓库系统的一个框架
  • Shark与Hive兼容、同时也依赖于Spark版本
  • Hivesql底层把sql解析成了mapreduce程序,Shark是把sql语句解析成了Spark任务
  • 随着性能优化的上限,以及集成SQL的一些复杂的分析功能,发现Hive的MapReduce思想限制了Shark的发展。
  • 最后Databricks公司终止对Shark的开发
    • 决定单独开发一个框架,不在依赖hive,把重点转移到了sparksql这个框架上。

什么是sparksql

Spark SQL is Apache Spark's module for working with structured data.

SparkSQL是apache Spark用来处理结构化数据的一个模块。

1569468946521

sparksql的四大特性

易整合

将SQL查询与Spark程序无缝混合

可以使用不同的语言进行代码开发

  • java
  • scala
  • python
  • R

1569469087993

统一的数据源访问

以相同的方式连接到任何数据源,sparksql后期可以采用一种统一的方式去对接任意的外部数据源,不需要使用不同的Api

val  dataFrame = sparkSession.read.文件格式的方法名("该文件格式的路径")

1569469225309

兼容hive

sparksql可以支持hivesql这种语法 sparksql兼容hivesql

1569469413038

支持标准的数据库连接

sparksql支持标准的数据库连接JDBC或者ODBC

1569469446641

标签:Shark,19,数据源,兼容,sparksql,SQL,spark,Spark
来源: https://www.cnblogs.com/jimmy888/p/13551729.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有