添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

1.数据库

关系型数据库:存放结构化的数据,像表格就是结构化的数据,能够对用户的请求操作做出毫秒级的响应。

如:Oracle,Mysql,Sybase,DB2,PostgreSQL,SQLserver,Access等

非关系型数据库:

如:BigTable(Google),HBase(Apache),Redis,MongoDB,Cassandra等

2.数据库的三范式

数据库的三范式用来解决数据的冗余,即数据重复的问题。

第一范式: 表中的每个字段是不可拆分的,比如三年二班,可以拆分成三年级和二班

第二范式: 建立在第一范式的基础上,主键的唯一性,但如果数据出现重复,要把表拆分开来

不符合第二范式的表格 Hive 基本架构 Hive 通过CLI/JDBC/ODBC或者HWI接受相关的 Hive SQL查询,并通过Driver组件进行编译,分析优化最后变成可执行的MapReduce。 Hive 主要组件执行过程如下: Hive SQL关键概念 内部表(managed table): Hive 管理的表,包含实际的物理意义。删除数据也没了。 CREATE TABLE mu_managed_table(coll STRING); LOAD DATA INPATH’/us 在企业数字化转型中,Hadoop已成为存储和处理海量非结构化/半结构化数据的核心平台(如日志、交易记录、用户行为数据)。但Hadoop的技术门槛(需掌握MapReduce/Spark编程)限制了业务人员直接分析数据的能力。Tableau作为全球领先的商业智能(BI)工具,以“所见即所得”的可视化交互降低分析门槛,但需与Hadoop集成才能访问其存储的PB级数据。本文聚焦Tableau与Hadoop的连接技术,覆盖 Hive /Impala/Spark SQL等主流数据源,解决从环境配置到可视化分析的全链路问题。 文章目录前言一、 Hive 基本架构二、 Hive SQL Hive 关键概念1. Hive 数据库 我们都知道, Hive SQL 实际上是翻译为 MapReduce 执行的, 那么它具体过程如何呢?这就是本次章节想探讨的—— Hive SQL 背后的执行机制和原理。 而进一步 理解和掌握 Hive SQL 的执行原理对于平时的 离线 任务 开发 和优化非常重要,直接关系到 Hive SQL 的执行效率和时间,可谓是非常重要了。 一、 Hive 基本架构 作为基于 Hadoop 主要数据仓库解决方案, Hive SQL