开发小技巧 - Demo - Flink写入HDFS - 《有数中台FAQ》

link管理
链接快照平台
输入网页链接，自动生成快照
标签化管理网页链接
相关文章推荐
文质彬彬的眼镜 · 回复术士的重来人生_在线观看 - 漫岛动漫· 6 月前 ·
风流的绿豆 · 河南严惩交警乱收费获嘉县公安局副局长被免职· 7 月前 ·
胡子拉碴的地瓜 · 新闻公告-中国科学院自动化研究所图书馆· 1 年前 ·
含蓄的汉堡包 · 宁德时代布局电池回收，能挖到金矿吗？· 1 年前 ·
爱旅游的荔枝 · 神也要上班啊！漫画｜官方在线漫画全集-快看漫画· 1 年前 ·
<groupId> org . apache . flink </ groupId > <artifactId> flink - core </ artifactId > <version> $ { flink . version }</ version > </ dependency > <dependency> <groupId> org . apache . flink </ groupId > <artifactId> flink - streaming - java_2 . 11 </ artifactId > <version> $ { flink . version }</ version > </ dependency > <dependency> <groupId> org . apache . flink </ groupId > <artifactId> flink - connector - kafka - 0.11 _2 . 11 </ artifactId > <version> $ { flink . version }</ version > </ dependency > <dependency> <groupId> org . apache . flink </ groupId > <artifactId> flink - connector - filesystem_2 . 11 </ artifactId > <version> $ { flink . version }</ version > </ dependency >
##### 代码示例
Flink消费Kafka写HDFS的简单demo代码
```java
import org.apache.flink.api.common.serialization.SimpleStringEncoder;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.CheckpointConfig;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink;
import org.apache.flink.streaming.api.functions.sink.filesystem.bucketassigners.DateTimeBucketAssigner;
import org.apache.flink.streaming.api.functions.sink.filesystem.rollingpolicies.DefaultRollingPolicy;
import org.apache.flink.streaming.api.functions.sink.filesystem.rollingpolicies.OnCheckpointRollingPolicy;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011;
import java.time.ZoneId;
import java.util.Properties;
public class Kafka2Hdfs {
    public static void main(String[] args) throws Exception {
        //kafka 连接信息
        String bootstrap_servers = "kafka1:9092,kafka2:9092:kafka3:9092";
        String groupId = "test_group";
        String offset = "latest";
        String topic = "test-topic";
        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", bootstrap_servers);
        properties.setProperty("group.id", groupId);
        properties.setProperty("auto.offset.reset", offset);
        // 创建Flink执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setMaxParallelism(256);
        env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
        env.getCheckpointConfig().setCheckpointInterval(10 * 60 * 1000);    //checkpoint间隔10min
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
        // 创建 Kafka Source
        FlinkKafkaConsumer011<String> kafkaSource = new FlinkKafkaConsumer011(
                topic,
                new SimpleStringSchema(),
                properties);
        // 创建 HDFS Sink
        String filePath = "/user/bdms";
        // 文件滚动策略1 ：  可指定文件滚动规则
        DefaultRollingPolicy rollingPolicy = DefaultRollingPolicy
                .builder()
                .withMaxPartSize(1024 * 1024 * 256)      // 设置每个文件的最大大小 ,默认是128M。这里设置为256M
                .withRolloverInterval(Long.MAX_VALUE)   // 滚动写入新文件的时间，默认60s。这里设置为无限大
                .withInactivityInterval(60 * 1000)      // 60s空闲，就滚动写入新的文件
                .build();
        // 文件滚动策略2 ： 当checkpoint时，文件滚动
        OnCheckpointRollingPolicy rollingPolicy2 = OnCheckpointRollingPolicy.build();
        StreamingFileSink hdfsSink = StreamingFileSink
                .forRowFormat(new Path(filePath), new SimpleStringEncoder<String>("UTF-8"))  // 输出的文件是按行存储的
//                .forBulkFormat(new Path(filePath))     // 也可以将输出结果用 Parquet 等格式进行压缩存储
                .withBucketAssigner(new DateTimeBucketAssigner("yyyy-MM-dd", ZoneId.of("Asia/Shanghai")))   //分桶策略 默认"yyyy-MM-dd--HH"  这里设置按天分
//                .withBucketAssigner(new BasePathBucketAssigner())   //分桶策略: 不分桶，所有文件写到根目录；
                .withRollingPolicy(rollingPolicy)
                .withBucketCheckInterval(1000L) // 桶检查间隔，这里设置为1s
                .build();
        // 添加Source、Sink
        DataStreamSource<String> sourceStream = env.addSource(kafkaSource);
        sourceStream.addSink(hdfsSink);
        // 执行任务
        env.execute("Kafka2Hdfs");
作者：wangsong
                    网易数帆-支持与服务
INFO - 模板
FAQ - 模板
数据字典INFO-SQL统计项目中心审计日志
INFO-SQL 统计使用调度日历的任务信息
INFO-SQL 统计发布中心已发布任务汇总
INFO-中台常用统计sql
INFO-SQL根据离线开发目录名称获取路径下任务信息
INFO-SQL批量统计被离线开发引用的传输任务
INFO-SQL 统计已调度任务配置告警信息
INFO-SQL新版任务运维中心统计脚本
INFO-SQL 统计hive指定库下表相关信息
INFO-统计kafka下所有topic数据量大小
INFO-SQL统计项目中已调度任务数与节点数
INFO-SQL统计离线开发任务操作记录查询
INFO-SQL统计安全中心敏感信息
INFO-SQL统计实时汇总
问题排查示例INFO-spark任务排查示例
INFO-数据质量任务排查示例
INFO-数据源需开通地址确认示例
INFO-mammut服务日志排查示例
INFO-azkaban日志排查
INFO-mapreduce类型排查示例
INFO-权限问题排查示例
INFO-安全中心问题排查示例
INFO-丢数据排查示例
INFO-easy_alert报警问题排查示例
INFO-数据服务API接口调用问题排查
INFO-数据资产问题排查示例
有数中台离线开发FAQ - 离线开发智能推荐中表名大写
INFO-shell 根据输出判断任务是否成功
Exception when loading
INFO-离职交接文档
INFO-离线开发提交上线工单异常
FAQ -更新队列\"xxx\"失败
FAQ-日志信息打印不全
INFO-默认勾选指定告警配置（如邮件，飞书，短信）
INFO-pyspark 添加依赖包
INFO-azkaban线程调整
INFO-批量取消调度任务
FAQ-旧版平台有任务kill不掉
INFO-数据订阅
INFO-批量导出任务失败
FAQ-数据库传输Oracle2Hive任务运行报错：Connection reset
FAQ-如何控制线上任务的队列权限
INFO-spark 添加jars依赖
INFO-离线开发读取parquet文件的类型
INFO-如何设置数据开发任务的只读权限
INFO-离线开发script脚本传参
INFO-离线开发Sql节点使用Azkaban时间参数
INFO-如何设置任务超时kill
INFO-sql任务如何在节点中设置队列
FAQ-重命名工作流后部分任务提示ClassNotFoundException
FAQ-离线开发sql太长org.codehaus.janino.CodeContxt.flowAn
INFO-Spark Jar开发提交
FAQ-节点任务可以打开可是没有保存按钮
FAQ-猛犸补数据的任务显示成功，但是点击后没有实例
INFO-Zip包方式提交的任务的相对路径计算
FAQ-任务一直就绪没有调度起来
INFO-不同周期任务依赖问题
FAQ-通过zip包提交的SQL节点JDBC模式任务，选中执行后SQL实际未执行
FAQ-离线开发中出现任务就绪
INFO-数据开发中，SQL节点如何导入UDF
INFO-指定提交队列信息
INFO-离线开发任务指定azkaban节点执行
INFO-平台依赖说明
FAQ - 离线开发 sql节点任务decimal(30,14)类型精度丢失
INFO-如何查看任务提交的队列资源
FAQ-中台线上调度任务已超过计划执行时间，但一直未生成任务实例
FAQ-中台上传任务包提示"任务类型/名称与原任务不一致"
FAQ-中台任务实际执行失败，但日志显示成功
FAQ-流中节点失败，其他节点都被撤销
FAQ-NoSuchMethodError
FAQ-does not have [SELECT] privilege on [default
INFO-Azkaban 时间参数使用说明
INFO-Azkaban环境变量
INFO-中台调度模式说明
FAQ-修改已经存在离线任务保存报错
INFO-安装python环境
INFO-python节点禁用模块说明




    
发布中心INFO-任务发布使用示例
FAQ-邮箱已存在，但对应的账号及账号系统不一致
告警系统INFO-飞书插件(自建应用)配置
INFO-飞书webhook插件配置
INFO-短信告警示例
INFO-钉钉插件告警
INFO-钉钉webhook报警配置示例
INFO-邮件告警配置说明
INFO-企业微信告警配置
INFO-企业微信webhook报警
INFO-修改流协里面的告警通道
FAQ-发送告警报错：535 5.7.3 Authentication unsuccessful
FAQ - 实时任务告警丢失
项目中心INFO-项目中心开启角色队列授权
INFO-principal格式不一致
INFO-猛犸平台项目内授权
INFO-跨项目授权
FAQ-项目管理员在项目管理选项找不到基础配置，配置不了调度日历
INFO-猛犸项目资源申请/变更与监控
FAQ-权限之类的授权之后，还是没有权限，或者表突然不见了
FAQ-队列资源不足导致任务长时间执行
FAQ-Hive任务启动后长时间无执行进度
FAQ-return code 1 from org.apache.hadoop.hive.ql.e
FAQ-Hive分区表对表进行授权后，查询提示无权限
FAQ-申请表权限页面，表的字段置灰，无法申请表权限
FAQ-线上模式工作流显示为灰色，无法编辑
FAQ-用户使用猛犸平台时缺少部分功能权限
FAQ-Ranger请求异常，调用失败
FAQ-登陆猛犸平台后无数据开发/任务运维/数据管理等菜单
FAQ-任务运行时间过长
平台INFO-禁用项目
INFO-调度日历函数计算示例
INFO-平台添加conda环境的python节点版本
INFO-冻结、解冻账号
INFO-如何跨集群获取hive数据
FAQ - 项目内删除用户报错服务器开小车
INFO-修改调度账号为个人
INFO-如何隐藏项目列表
FAQ - 自助分析连mysql sql中中文作为过滤条件没有数据
INFO-导航栏添加外部链接
INFO-重置平台账号密码
INFO-调度日历后台删除示例
INFO-自助分析最大下载量调整
INFO-平台删除队列操作
FAQ -开启调度日历开关
INFO-跨项目组任务依赖
INFO-平台会话时间设置
FAQ - 实时项目初始化失败
INFO-跨集群任务发布开启方案
INFO-修改平台favicon
INFO-不同表数据如何导入同一张去向表
FAQ-数据传输创建离线开发任务无权限报错
FAQ-insert into values 没有权限
INFO-创建平台账号
INFO-平台web页面展示问题
FAQ-自助分析使用impala执行失败
FAQ-删除嵌套流任务报错
INFO-修改浏览器页上tab图标
INFO-调度设置说明
INFO-自助分析编辑器卡顿
FAQ-使用impala查询报文件不存在
INFO-离线开发任务包的下载与上传
INFO-调用MammutOpenApi实现上传下载任务包
INFO-跨集群拷贝Hive表元数据
FAQ-角色授权提交队列失败
FAQ-运行任务时间参数不对
INFO-如何修改控制台logo及文字
INFO-如何注册新的HIVE库
FAQ-自助分析查询Mysql表不存在
FAQ-节点的历史版本为灰色
INFO-如何判断HQL过滤条件中分区剪裁是否生效
INFO-猛犸项目申请开通新集群
INFO-导出中台项目下账号功能权限
INFO-调用中台open API
INFO-如何使用python写自定义函数
FAQ-商业化客户漏洞修复流程及信息
FAQ-org.apache.thrift.transport.TTransportExceptio
FAQ-服务器开小差
FAQ-File Not Found
INFO-如何添加账号系统管理员
INFO-选择节点的使用
FAQ-自助分析内存溢出
INFO-自助分析内存溢出具体内容添加
FAQ-离线开发服务器开小差
FAQ-自助分析查询结果无法下载
FAQ-SemanticException Column issuetype Found in mo
FAQ-Parquet格式表查询字段结果为null
INFO-调用MammutOpenApi获取线上任务相关信息
INFO-中台添加报警
FAQ-token expired or does not exist
INFO-Impala作为数据源对外提供服务
FAQ - User bdms_xxx not found
INFO-平台添加公共资源编辑查看下载权限
INFO-数据源登记权限需要哪里授权
INFO-如何查看中台上传资源包路径
INFO_中台审计日志
INFO-中台登录页字体替换
INFO-平台变更负责人
FAQ-alert table add partation报错需要写权限
FAQ-Invalid table alias 'XXX'
FAQ - AnalysisException
FAQ-SemanticException TOK_ALLCOLREF is not support
INFO-如何禁用某个账号
FAQ-自助分析hive查询kudu运行select报错
FAQ-自助分析队列列表位置为空
FAQ-猛犸自助分析查询无结果，但添加limit 10可返回结果
FAQ-select count(*)的结果和把数据导入到execel中数出来不一致
FAQ-任务一直校验权限
FAQ-查询语句显示正常，创建表后查询出现串行问题
任务运维FAQ-mysql->hive 报java.sql.SQLException: Transactio
FAQ-周期补数据的逻辑
INFO-任务运维中心冻结池使用说明
FAQ-新版任务运维中心周期实例大盘报错
FAQ-运维中心大盘显示异常
INFO-easyops修改Spark默认内存配置
FAQ-任务不调度
INFO-如何确认任务执行的调度机器
FAQ-任务重跑的时间是什么时间
INFO-如何单独调度某天的数据
FAQ-关于mammut运行任务内存问题定位方发与解决方案
FAQ-列错位排查
FAQ-如何在Yarn中查询任务完整的SQL
FAQ-通过Yarn定位任务失败原因方法
FAQ - 周期性实例运维报错“服务器异常”
FAQ- spark history 页面无法找到任务
FAQ-hive的查询任务运行几小时后，显示被项目账号kill
FAQ-补数据没有任务实例生成
FAQ-java.net.UnknownHostException: xxxx
FAQ-无具体的执行实例！
FAQ - 任务实例无法停止
FAQ-运行任务节点显示-Error submitting flow XXXXXX is alrea
FAQ-任务流中的多个嵌套流节点不能同时执行
FAQ-任务执行成功但未生成数据
FAQ-任务无法手动停止
FAQ-任务实例已启动，但一直处于就绪状态，超时自动被kill
FAQ-补数据报错无实例生成




    
数据传输GreenplumFAQ-Greenplum '' does not exist in table
INFO-Greenplum 参数信息
INFO-实时传输，上游字段类型变更
INFO-数据传输读取API数据源数据
INFO-easyops修改数据传输支持的数据源
FAQ -hive2es写入超时
INFO-新增字段功能说明
Kudu相关FAQ-写入kudu的数据类型和kudu表字段的定义类型不一致
FAQ-来源表的列是字符型，去向表的列不是string或varchar
FAQ-使用了自定义表达式，列名找不到
FAQ-range分区表分区有遗漏
doris相关FAQ-current running txns on db xx is xx
FAQ-intolerable failure in opening node channels
FAQ- java.sql.SQLException:Connection is read-only
FAQ - Can't get Kerberos realm,cluster:N/A
HBase相关INFO-hbase作为数据源进行数据传输
FAQ - hive2hbase一直内存溢出
FAQ-hive2hbase长时间accept
FAQ - 写入hbase 报ArrayIndexOutOfBoundsException: 1
FAQ-去向为hbase时写入的数据为二进制数据
FAQ-BulkLoad写入时报目录没有权限
FTP相关FAQ-解析ftp excel时找不到字段
FAQ-ERROR SftpHandler: connect failed
FAQ-FTP数据传输报错 neither an OLE2 stream, nor an OOXML
FAQ-dbf文件到hive，中文乱码
INFO-hive2ftp excel格式如何去标题（表头）
FAQ-FTP文本筛选多余匹配问题
FAQ-FTP数据传输报错Connection reset
MongoDB相关FAQ - mongo传输报错cannot resolve '`xxx'' given input
FAQ-数据传输mongodb做数据源时没有权限
FAQ-同步的collection无数据
FAQ-使用的账号密码报错 Invalid uri
Clickhouse相关FAQ-ClickHouse exception  xxx Read timed out
FAQ-TaskSetManager: Lost task 0.0 in stage 0.0
PG相关FAQ-key(xxx) already exists
mysql相关FAQ-HOUR_OF_DAY: 0 -> 1
FAQ-Can't get JDBC type for null
FAQ-mysql2hive语法错误
FAQ - Data truncation: Data too long for column xx
FAQ - mysql传输编码乱码
FAQ - Unknown system variable 'tx_isolation'
FAQ-MySQL版本异常报错
FAQ-数据传输 OceanBase 到hive 查询超时
FAQ-timestamp字段的列为空值 数据为0000-00-00 00:00:00
FAQ-MySQL分库分表中的表或ddb的dbn节点上的表结构不一致
FAQ-写入mysql后的时间字段和原时间相差n小时
FAQ-如何优化hive->mysql hdfs上只有一个文件 写入mysql耗时太长
ES相关FAQ-Connection error (check network and/or proxy x
FAQ - Field 'tags' is backed by an array
FAQ-hive-es 报错 unknown es version 7.6.1
FAQ - es2hive包含数组
FAQ-数据传输ES数据源报错
FAQ-向es传输数据字段类型异常
FAQ-数据传输去向段为es报type错误，无法插入数据
FAQ - 传输任务源端大小写读取异常
hive相关FAQ-传输使用登记的cdh hive支持字段类型
FAQ-读取hive orc表报java.lang.IndexOutOfBounds
INFO-跨项目选择hive数据源
FAQ-hive2oracle，时间戳类型转DATE格式报错
FAQ-hive中的数据比源端的数据多
FAQ-hive表读取时，字段使用常量或表达式
FAQ-读取HIVE较慢
FAQ-写入hive的parquet表报错
INFO-数据传输任务写入hive表 开启同步元数据信息
FAQ-写入hive后无法读取数据
Oracle相关FAQ-hive到oracle task只有一个
FAQ - Got minus one from a read call
FAQ-oracle2hive date时间类型写入hive string 相差一小时
FAQ-读取oracle时，使用自定义表达式后，去向表找不到列
实时同步INFO-控制实时同步写hive小文件生成频率
INFO-数据传输实时kafka数据源，指定groupid
SqoopFAQ-Sqoop任务报错： com.mysql.jdbc.exceptions.jdbc4.Com
INFO-sqoop-update-mode相关
FAQ-sqoop --columns参数说明
FAQ-SQOOP数据倾斜
INFO-Sqoop清空mysql
INFO-Sqoop导入本地文件系统
INFO-增量数据任务配置
INFO-Sqoop常用功能
INFO-Sqoop-猛犸使用流程
INFO-Sqoop使用引导
INFO-Sqoop介绍
FAQ-Sqoop Java heap space
FAQ-SQOOP特殊字符处理
FAQ-Unrecognized argument
FAQ-Can't export data '\N'
FAQ-SQOOP使用QUERY多并发导致数据重复
FAQ-Can't export data "xxx"
FAQ-java.net.ConnectException: Connection timed ou
FAQ-Data truncation: Out of range value for column
FAQ-RDS中包含tinyint类型字段同步后数据异常
FAQ-map-column-hive和map-column-java的区别
其他FAQ-Cannot cast STRING into a NullType
FAQ - java.util.NoSuchElementException: None.get
INFO-数据传输hive-gp 或gp-hive需要开通哪些端口
INFO_数据传输调用中台数据服务api（包含前置操作，udf）到hive
INFO-api2hive数据传输
FAQ-IllegalStateException: files size can't be 0
FAQ - kafka字段解析成功但同名&同行映射不上
FAQ-数据传输API指定分页未生效
FAQ -  'splitNum' must be specified when split key
FAQ-数据传输表管理流表选择不到topic
INFO-数据传输来源端，排查执行sql语句
FAQ-数据传输-来源端数据字段为关键字导致传输异常
INFO-数据传输任务字段映射关系
FAQ-数据传输使用源账号映射的账号
INFO-配置本地导入ftp服务器
INFO-登记API数据源及创建数据传输API任务
INFO-线上环境建德数据源添加白名单
FAQ-doris传输报错connect status code=-1
FAQ-Kafka开启acl权限控制
FAQ-数据传输Communications link failure
FAQ-kafka开启了acl权限控制，任务中未添加消费者参数
FAQ-File does not exist
FAQ-Cannot parse value [2020-12-02 17:46:46] for x
FAQ-数组字段添加参数
FAQ-all nodes failed
FAQ-读取orc表报错
FAQ-过滤条件指定日期函数报错
FAQ-高级属性split指定有误
FAQ-数据传输任务成功，但是没有数据
INFO-数据传输任务处理空值
FAQ-数据源配置成功, 但数据传输页面该库下不能显示表
FAQ-spark任务血缘报错找不到kafka的包
FAQ-数据传输vertica作为来源段不支持自定义cores参数
FAQ-java.util.NoSuchElementException: head of empt
FAQ-增量传输不自动切分数据
FAQ-在日志中打印sql
FAQ-数据传输用spark导入hive的parquet格式的表,自助分析用hive查询报错
INFO-数据传输如何支持vertica类型
FAQ-vertica作为数据源时切分键的选择
FAQ-任务一直报GC
FAQ-数据传输提交任务上线失败
FAQ-资源不足导致任务较往常延迟严重
INFO-数据传输Local模式
FAQ-数据开发数据库传输节点中，切分键怎么选




    
指标系统INFO-BI对接中台指标系统
INFO-指标系统功能权限说明
模型设计INFO-数据库查询主题域与表关联关系
FAQ-模型设计中心数仓建设水平评估无数据
INFO-模型设计-禁用分层效果
INFO-模型设计中心功能权限说明
INFO-非Hive数据源模型表抓取使用流程
FAQ-负责人管理员进入模型设计中心没权限
FAQ-建表工单修改非分区表
数据地图INFO-数据地图导入组织架构
INFO-数据地图回收站使用
INFO-openapi治理元数据
FAQ-数据地图的产出信息为空
INFO-配置数据地图回收站
INFO-数据地图功能权限说明
FAQ-有改表权限却没办法编辑字段
FAQ-用户误删数据时如何恢复
FAQ-回收站报错-进行kerberos认证失败
数据服务INFO-HTTP/HTTPS 区别及使用
FAQ-API返回total_num:null
FAQ-api流控策略绑定失败
INFO-postman调用API接口
INFO-数据服务api获取原接口数据示例
INFO-数据服务监控状态接口
FAQ-请求错误
FAQ-数据服务SDK使用时报错：kotlin.jvm.internal.Intrinsics
INFO-mybatis 动态查询启用与未启用的区别
数据质量INFO-数据质量中心功能权限说明
INFO-dqc形态探查指定版本
INFO-监控对二级分区进行监控需要必填一级分区字段
数据资产INFO-数据资产中心Hive表引用数计算逻辑
INFO-数据资产中心功能权限说明
INFO-数据资产任务成本计算逻辑
FAQ-生命周期清理的表如何恢复
标签工厂
安全中心FAQ-mysql数据源链接不通Communications link failure
FAQ-自助分析离线开发正常读写表，线上调度没权限
INFO-安全中心开启子产品菜单控制权限
INFO-线上环境如何申请项目外表
FAQ-管理员报错没有表权限
FAQ-审批库表权限时没有加入猛犸项目
FAQ-安全中心脱敏数据加密后如何还原查看
INFO-脱敏规则AES加解密内置函数
流程协作FAQ-工单审批人没有权限
INFO-流程协作（新）开通管理员功能
实时计算INFO-指定插件版本
FAQ-数据滞留延迟达到2800多万毫秒
INFO-Flink内存调优参数文档
INFO-实时任务转交权限
FAQ - kafka soure表canal-json序列化报Unsupported option
FAQ - kafka 任务报错读到了不存在的偏移量
INFO-实时开发开启立即执行功能
FAQ-No operators defined in streaming topology
INFO-数据传输实时mysql-kafka出现数据延迟优化
INFO-FlinkUDF开发和使用
FAQ-HDFS归档文件一直Inprogress
FAQ-Current usage: 2.0 GB of 2 GB physical memory
FAQ-启动异常：Caused by: org.apache.flink.table.api.Val
FAQ-Caused by: java.lang.ClassNotFoundException:
FAQ-Mysql Sink主键冲突
FAQ-For heap backends, the new state serializer
INFO-实时计算中Slot数量、TM数量与并行度间的关系
FAQ-Service temporarily unavailable due to an ongo
FAQ-数仓建表中定义嵌套JSON字段
用户应用和框架 JAR 包版本冲突问题
心跳超时是什么原因Heartbeat [...] timed out
Checkpoint 失败之Checkpoint Decline应如何排查
应用提交控制台异常信息：Could not build the program from JAR
任务一直启动中，日志显示“Deployment took more than 60 seconds”
Connecting to remote task manager
jdbc维表报：The server time zone value‘XXX’
Could not allocate the required slot within slot
sink hbase报connection reset by peer
runntimeException: Handle mapjoin get error: null
Checkpoint 失败之Checkpoint Expire应如何排查
元数据中心FAQ-数据地图搜不到表es同步失败
FAQ-ORA-28040: No matching authentication protocol
FAQ-pg或者gp数据源，登记时不同schema报错存在相同唯一性规则数据源
INFO-如何通过数据库查看数据源信息
FAQ - 项目信息丢失
INFO-跨集群hive数据源登记
INFO-控制台新增数据源类型
INFO-元数据中心数据源密码解密
INFO-查看ES定时任务执行记录
INFO-Kerberos kafka数据源登记
INFO-全量检索开关
FAQ -datasource 5044 don't has auth info
INFO-neo4j开通只读权限账号
INFO-默认项目数据源误删后如何恢复
INFO-HANA数据源登记
INFO-如何添加脱敏数据库
FAQ-已加入数据源管理员角色，数据源登记仍为灰色
FAQ-元数据偶现超时
FAQ-PG14版本数据源驱动适配问题
大数据技术hbase
HadoopFAQ-Failed to specify server's Kerberos principal
FAQ-Queue's AM resource limit exceeded
FAQ-All datanodes DatanodeInfoWithStorage[XXX,DISK
FAQ-unsupported major.minor version 52.0
FAQ-Could not obtain block:BP-xxx
FAQ-MaxDirectoryItemsExceededException
FAQ-There are 3 datanode(s) running and 3 node(s)
FAQ-ack with firstBadLink as XXXX




    
KerberosINFO-Kerberos概念
YarnINFO-yarn 队列am 计算方式
HiveFAQ-msck repair table tablename execution error
FAQ-not in在每个引擎下都没有返回结果
INFO-hivevar示例
FAQ - 任务调度成功无数据以及分区生成
FAQ - Memory allocation 1048221 bytes is small xxx
FAQ-csv文件load inpath数据查询为null
INFO_hive函数base64加码解码
FAQ - which exceeds 100000. Killing the job
FAQ-使用beeline链接如何去除格式符号
INFO-hive禁用科学技术法展示数值
FAQ - Hive外表对应hdfs路径下文件已正常写入，但查询结果为空
FAQ-Hive parquet格式表字段重命名后查询数据为null
INFO-如何再创建表时开启表元数据自动同步
FAQ-This non standard behavior is not supported wi
INFO-默认分区_HIVE_DEFAULT_PARTITION
FAQ-java.io.IOException: Mismatch in length of xxx
FAQ-0x25：KRB_AP_ERR_SKEW
INFO-Hive 类型转换
FAQ-hive中文展示乱码
INFO-Hive 元数据表结构详解
INFO-Hive自定义变量及使用
INFO-Hive脏数据排查及处理
INFO-Hive任务如何降低hdfs副本数
FAQ-如何提取每个月第一天日期
FAQ-Row is not a valid JSON Object - JSONExcep
FAQ-Error running query: java.lan g.StackOverflowE
FAQ-hive(parquet)表修改字段名称查询数据null值
FAQ-Split metadata size exceeded 10000000
INFO-如何修改Hive表的生命周期
INFO-Hive客户端访问
INFO-HIVE优化常用参数
INFO-Hive on hbase
INFO-Hive 表创建
FAQ-hiveserver重启导致任务失败
FAQ-hive查询结果中个别条数据为null，其他数据正常
HiveQL出现java.net.SocketTimeoutException: Read time
FAQ-Hive表读取Excel文件出现乱码
FAQ-数据倾斜/任务长时间不结束/reduce卡进度99%
FAQ-Caused by: MetaException(message:Hive Schema v
FAQ-数据倾斜报错
FAQ-Cannot inspect org.apache.hadoop.io.XXX
FAQ-通过猛犸运行任务时，出现客户端操作抛出java heap space
FAQ-has an incompatible Parquet schema for column
FAQ-hive查询指定分区可正常返回结果，但表对应hdfs路径下无数据文件
FAQ-Failed to delete parent
FAQ-Fatal error occurred when node tried to create
FAQ-msck repair 大量分区时抛出超时异常
FAQ-hive.ql.metadata.HiveException
FAQ-如何提取map中的字段
FAQ-HIVE任务报错OOM
FAQ-hive任务reduce无法启动
FAQ-to be inserted have the same number of columns
INFO-底层组件kerberos认证以及连接
FAQ - Unable to read HiveServer2 configs from ZK
FAQ-GC overhead limit exceeded
FAQ-hive.limit.query.max.table.partition
FAQ-Caused by：java.lang.OutOfMemoryError
FAQ-beyond physical/virtual memory limits
FAQ-Java Heap Space
FAQ-Hive分区表变更表元数据后，查询变更字段内容为Null
FAQ-select * 没有结果 count（0）有结果
FAQ-Max block location exceeded for split
FAQ-Could not retrieve transation read-only status
SparkINFO-小文件合并
FAQ-Caused by: org.apache.spark.SparkUpgradeExcep
FAQ-Spark读取Impala插入的数据timestamp字段结果加了8小时
faq-spark3.x时间格式问题
FAQ -动态分区写入非本次覆盖分区被清空
FAQ-java.lang.OutOfMemoryError: Metaspace
FAQ-Spark3不支持解析current_date这种格式
FAQ-unix_timestamp()函数在spark和impala中用法不同
INFO-如何建表造数据使用
FAQ-spark并发补数据分区为空
INFO-SparkSQL函数大全
FAQ-java.lang.StackOverflowError
FAQ-PySpark任务在自建Spark与中台Spark运行时间差别很大
INFO-通过Spark UI 定位任务失败原因
FAQ-File does not exist: hdfs://xxx/xxx/.sparkSt
FAQ-File does not exist azkaban_flow.keytab
FAQ-KryoException: Buffer overflow
FAQ-Futures timed out after [120 seconds]
FAQ-Container killed by YARN for exceeding memor
FAQ-Caused by: java.lang.OutOfMemoryError: GC
FAQ-Container killed on request. Exit code is 14
FAQ-Spark任务出现大量GC导致任务运行缓慢
INFO-如何设置yarn上kyuubi任务缓存时间
FAQ-自助分析计算hive查询正常spark查询返回null
FAQ-orc.OrcInputFormat: FooterCacheHitRatio
FAQ-Spark用cluster模式报错找不到文件
INFO-Spark任务强制启用笛卡尔积
INFO-Pyspark任务修改执行的python为python3
FAQ-spark stream任务运行一段时间之后报错token失效
FAQ-The directory item limit of /spark2-history is
FAQ-Spark任务运行的时候打不开web UI
FAQ-ROW FORMAT DELIMITED is only compatible with
FAQ-ORC表查询结果为空但select count(*)不为0
FAQ-java.nio.file.NoSuchFileException: /tmp/spark2
FAQ-自助分析spark执行报错time out
FAQ-Cannot recognize hive type string: null
INFO-如何从sparkUI判断spark任务卡在哪里
INFO-如何确认sparksql任务输出多少数据
FAQ-java.lang.RuntimeException: serious problem
FAQ-stage长时间卡住Monitor(sun.security.jca.Provider
FAQ-spark中get_json_object提取json中的数组内容
INFO-spark on yarn 内存分配
FAQ-spark执行的数据hive查询报错0 in block -1
FAQ-PlainValuesDictionary
FAQ-Spark sql 任务出现空指针异常
INFO-底层kill application
FAQ - parquet格式表字段重命名后hive查询有数据spark查询null
FAQ-Could not obtain block: BP-xxxxxx
FAQ - number of dynamic partitions created is xxxx
INFO-pyspark客户端连接集群
INFO-Spark任务优化方案
INFO-中台Spark参数设置
INFO-spark任务打印环境信息
FAQ-executor lost
FAQ-FetchFailedException failed to allocate 167772
Spark on Kudu
FAQ-如何看到卡住spark任务的driver thread dump
FAQ-进入ds项目无权限
FAQ-org.apache.kyuubi.KyuubiSQLException:Timeout
INFO-pyspark如何依赖文件
FAQ-Unsupported encoding: DELTA_BYTE_ARRAY




    
ImpalaFAQ-impala查询结果和spark不一致
FAQ-does not have privileges to execute 'xxx'
INFO-Impala自动同步元数据
FAQ-impala查询时间类型数据与实际值有时差
FAQ - impala 对分区处理时无结果返回
Incompatible return types 'DECIMAL(38,7)' of exprs
FAQ-刷新元数据后执行查询仍然失败
FAQ-通过impala创建表后查询仍然需要进行元数据刷新
FAQ-impala支持select和drop kudu表
FAQ-default库没有权限
FAQ-刷新元数据报错Syntax error
FAQ-or或in分区条件时数据查询不准确
FAQ-为什么impala每次查询结果的顺序不一样
INFO-impala同步元数据临时离线开发任务
INFO-后台为Kudu表添加Impala操作权限
FAQ-Not enough memory available on host
FlinkFAQ-Insufficient number of network buffers
FAQ-Thenew state serializer cannot be incompatible
FAQ-Could not deploy Yarn job cluster
FAQ-org.apache.flink.formats.json.JsonRowDataDeser
FAQ-java.sql.BatchUpdateException: token EOF
FAQ-Duplicate entry 'xxxx' for key 'PRIMARY'
FAQ-Deployment took more than 60 seconds
FAQ-CLIENT_PLUGIN_AUTH is required
FAQ-java.lang.RuntimeException: topic_name
FAQ-java.lang.Integer cannot be cast to java.lang.
FAQ-assert 'decimal type not match' failed
FAQ-Queue root.default already has 30 applic
FAQ-has passed since batch creation plus linger
FAQ-Failed to allocate memory within the configure
FAQ-No operations allowed after statement close
FAQ-No valid credentials provided (Mechanism level
FAQ-failed to pull resource [] out of class to des
FAQ-metrics.MetricRegistryImpl
FAQ-get one error data,now errorCount:1
FAQ-Timeout of 60000ms expired before the position
FAQ-Buffer pool is destroyed.
FAQ-unable to create new native thread
FAQ-Container released on a *lost* node
FAQ-Timed out: cannot complete before timeout
FAQ-field doesn't exist in the parameters of SQL s
FAQ-flinksql写入arctic表，报is exceeded: limit=1040576
FAQ-Task did not exit gracefully within 180 +
FAQ-Can not retract a non-existent record.
INFO-FLINK SQL 中的时区转换
FAQ-Failed to take leadership with session id
KafkaINFO-kafka常用指令
Kudu
NDH底座INFO-cs队列使用原理
CDH底座FAQ - WebHdfs 访问认证报错
INFO-新增cs队列项目
FAQ - 安全中心授权不生效
特殊底座FAQ-oss集群加入项目报错
常用数据库MySQLFAQ-列字段存在关键字
FAQ-源表中的tinyint(1)字段的值导入目标表只有0和1
OracleINFO-查看Oracle表索引信息
FAQ-数据源登记使用的账户没有读写表的权限
开发小技巧DEMO-windows 终端使用 dbeaver 连接 kerberos 认证的 hive 服务
INFO-帆软6.X 连接url新增信息
DEMO-Python链接Hadoop集群
DEMO-通过数据地图openapi接口查询哪些表没开启impala同步
DEMO-shell跨服务器登陆自动输入用户密码远程执行脚本
DEMO-两个Hadoop集群Kerberos认证跨域互信
DEMO-shell脚本kill前如何执行相应的操作来进行处理
DEMO-重置grafana密码
INFO-跨集群distcp
demo-离线开发参数传递用法
Demo-如何通过azkaban函数获取时间戳
Demo-mapreduce任务如何设置参数
DEMO-资源组使用脚本并传参demo
Demo-DBeaver 连接带kerberos 认证的Hive
DEMO-内部环境获取集群/项目存储情况
Demo-script脚本连接hdfs
Demo-新版OpenAPI使用
Demo - Shell访问Hive/Impala
Demo - Shell执行SparkJar
Demo - 节点报磁盘空间不足排查过程
Demo - JavaAPI连接HBase
Demo - Java访问HDFS
Demo - Flink写入HDFS
Demo - 有数中台网络权限申请
Demo - HIVE实现存储过程
Demo - HiveOverHbase
Demo - 数开平台删除hive库流程
Demo - GP对接HDFS/Hive
Demo - Hadoop客户端配置
Demo-ScriptRunSparkSQL
Demo - 流水型数据抽取
Demo -  将CSV文件数据导入Hive表
Demo - 获取互联网出口IP
Demo - Hive刷新元数据
Demo - HTTP Trigger MR任务使用
Demo-数据传输实时同步任务
Demo-判断spark任务运行卡在哪里
Demo-如何手动采集元数据注入es
Demo-如何更换黑色护眼主题
DEOM-公共环境资源监控
FAQ-智能推荐找不到输入表的实例
Demo-降低副本
Demo-查询不一致(持续更新)
Demo - 有数中台接入DataX
DEMO-hiveudf-不重复uuid
DEMO-JDBC链接Hive/Impala
Demo-spark-jar传入自定义参数
DEMO-WINDOWS-HIVE-JDBC-ZOOKEEPER下方式
DEMO-帆软连接中台hive-impala
Demo-Pyspark On Mammut
INFO-mobax被锁如何reset
Demo-DataGrip对接Hive
            浙公网安备 33010802008719号