pyspark json pysparkjson数据存入hive时报keyerror_西门吹雪的技术博客_

link管理

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

冷冷的电影票 · hivesql ...· 3 周前 ·

会开车的紫菜 · HIVE 字符串去掉最后一个字符 - CSDN文库· 3 周前 ·

威武的炒粉 · Databricks Runtime ...· 2 周前 ·

逆袭的大象 · 《滴滴离线索引快速构建 FastIndex ...· 1 周前 ·

没有腹肌的开水瓶 · 亚马逊kindle充...· 4 月前 ·

聪明的足球 · 《宋词三百首（夏承焘选评）》电子书在线阅读- ...· 1 年前 ·

阳光的皮带 · 袁翰青_已故_九三学社中央委员会· 1 年前 ·

小眼睛的葫芦 · tar ...· 2 年前 ·

有爱心的松鼠 · 在线客服系统的源码中Golang ...· 2 年前 ·

hive中表的结构：
在hive目录下已经创建了auxlib子目录并放入下载的jar包以支持json：
代码，尝试用spark操作由json数据构成的hive表数据：

uup.spark.sql('use profile')
user_action = uup.spark.sql("select actionTime,readTime,channelId,param.articleId,param['algorithmCombie'] algorithmCombie,param['action'] action,param['userId'] userId from user_action where dt>='2019-04-01'")
user_action.show()

报错：
原因：hive表如果是由json数据构成的，需要引入hive-hcatalog-core-x.x.x.jar包，这里hive下面已经引入了，所以将代码中的select语句赋值到hive中直接查询是没有问题的。这里的问题是使用spark操作hive的引擎与直接在终端使用hive命令是不一样的，如果直接在终端使用hive命令打开操作hive数据库，hive使用的是hadoop的mapreduce来操作数据。而如果在spark上操作hive数据库，使用的引擎是spark自己的rdd。所以如果操作由json构成的hive表，spark中也应该引入hive-hcatalog-core-x.x.x.jar包。
解决：将hive中的hive-hcatalog-core-x.x.x.jar复制一份到spark中的jars子目录下。

这时重启jupyter服务（只重启jupyter就行，hive、spark都不需要重启），清掉jupyter中的缓冲，再次执行代码：

pyspark json pysparkjson数据存入hive时报keyerror_hive

成功查询到数据！

推荐文章

冷冷的电影票 · hivesql 去除第一个字符和最后一个_mob64ca12d9081f的技术博客_

3 周前

会开车的紫菜 · HIVE 字符串去掉最后一个字符 - CSDN文库

3 周前

威武的炒粉 · Databricks Runtime 17.1 - Azure Databricks | Microsoft Learn

2 周前

逆袭的大象 · 《滴滴离线索引快速构建 FastIndex 架构实践》问题解答 - 搜索客，搜索人自己的社区

1 周前

没有腹肌的开水瓶 · 亚马逊kindle充...

4 月前

聪明的足球 · 《宋词三百首（夏承焘选评）》电子书在线阅读-夏承焘选编-得到APP

1 年前

阳光的皮带 · 袁翰青_已故_九三学社中央委员会

1 年前

小眼睛的葫芦 · tar 命令详解,.tar.gz,.tar.bz2,.gzip文件怎么解压_linux系统与网络的技术博客_51CTO博客

2 年前

有爱心的松鼠 · 在线客服系统的源码中Golang Gin框架实现IP白名单机制-腾讯云开发者社区-腾讯云

2 年前