大数据Hive离线计算开发实战笔记第一章_杨力大数据hive离线计算开发实战

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

1.数据库

关系型数据库：存放结构化的数据，像表格就是结构化的数据，能够对用户的请求操作做出毫秒级的响应。

如：Oracle，Mysql，Sybase,DB2,PostgreSQL,SQLserver,Access等

非关系型数据库：

如：BigTable(Google),HBase(Apache),Redis,MongoDB,Cassandra等

2.数据库的三范式

数据库的三范式用来解决数据的冗余，即数据重复的问题。

第一范式： 表中的每个字段是不可拆分的，比如三年二班，可以拆分成三年级和二班

第二范式： 建立在第一范式的基础上，主键的唯一性，但如果数据出现重复，要把表拆分开来

不符合第二范式的表格 Hive 基本架构 Hive 通过CLI/JDBC/ODBC或者HWI接受相关的 Hive SQL查询，并通过Driver组件进行编译，分析优化最后变成可执行的MapReduce。 Hive 主要组件执行过程如下： Hive SQL关键概念内部表（managed table）： Hive 管理的表，包含实际的物理意义。删除数据也没了。 CREATE TABLE mu_managed_table（coll STRING）； LOAD DATA INPATH’/us 在企业数字化转型中，Hadoop已成为存储和处理海量非结构化/半结构化数据的核心平台（如日志、交易记录、用户行为数据）。但Hadoop的技术门槛（需掌握MapReduce/Spark编程）限制了业务人员直接分析数据的能力。Tableau作为全球领先的商业智能（BI）工具，以“所见即所得”的可视化交互降低分析门槛，但需与Hadoop集成才能访问其存储的PB级数据。本文聚焦Tableau与Hadoop的连接技术，覆盖 Hive /Impala/Spark SQL等主流数据源，解决从环境配置到可视化分析的全链路问题。文章目录前言一、 Hive 基本架构二、 Hive SQL Hive 关键概念1. Hive 数据库我们都知道， Hive SQL 实际上是翻译为 MapReduce 执行的，那么它具体过程如何呢？这就是本次章节想探讨的—— Hive SQL 背后的执行机制和原理。而进一步理解和掌握 Hive SQL 的执行原理对于平时的离线任务开发和优化非常重要，直接关系到 Hive SQL 的执行效率和时间，可谓是非常重要了。一、 Hive 基本架构作为基于 Hadoop 主要数据仓库解决方案， Hive SQL

推荐文章

一直单身的小刀 · 適用於 Ranger 與 Amazon EMR 整合的 Apache Hive 外掛程式 - Amazon EMR

1 周前

爱搭讪的木瓜 · HiveServer2负载均衡的配置及使用_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

1 周前

忐忑的围巾 · linux中重启hive的命令 • Worktile社区

1 周前

霸气的烈马 · 如何集成Hive到Ranger并配置权限_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

1 周前

强健的鸵鸟 · Apache Spark 與 Hive - Hive Warehouse Connector - Azure HDInsight | Microsoft Learn

1 周前

慷慨的水煮肉 · 背包各細部構造解釋 – 背帶、扣環還有更多！ | Thule | 台灣

1 月前

豁达的帽子 · 在职考研：合肥工业大学计算机与信息学院学费多少？在哪个校区？ - 中国教育在线

1 月前

爱健身的马铃薯 · 《龙珠》系列观看顺序全攻略：从悟空的童年到宇宙的巅峰_腾讯新闻

1 月前

爱看书的鼠标垫 · java 判断当前时间是否在 16:00 和 17:00 之间 - CSDN文库

1 年前

豪情万千的松鼠 · webgl进阶Shader篇（基于Three.js）——第一个简单的Shader_基于three.js的shader-CSDN博客

1 年前