添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
  • Shark是把sql语句解析成了Spark任务,Hivesql 底层把 sql 解析成了 mapreduce 程序

  • 随着对 Shark 性能优化的上限,以及集成SQL的一些复杂的分析功能,发现Hive的MapReduce思想限制了Shark的发展

  • 最后 Databricks 公司终止对 Shark 的开发,决定单独开发一个框架,不在依赖hive,把重点转移到了 SparkSQL 这个框架上

    1.2 SparkSQL 是什么

    Spark SQL is Apache Spark’s module for working with structured data.

    SparkSQL是apache Spark用来处理结构化数据的一个模块

    1.3 SparkSQL 的特性

    1. SparkSQL将SQL查询与Spark程序无缝混合
    2. SparkSQL 可以使用java、Scala、Python、R 等不同的语言进行代码开发
    3. 统一的数据源访问
    4. // 以相同的方式连接到任何数据源
      val  dataFrame = sparkSession.read.文件格式的方法名("该文件格式的路径")
    5. 兼容hive
    6. SparkSQL 可以支持 HiveSql 这种语法

    7. 支持标准的数据库连接
    8. SparkSQL支持标准的数据库连接JDBC或者ODBC

      2. DataFrame

      2.1 DataFrame的由来

  •