spark-sql做ETL时遇到的两个问题-白红宇

spark-sql做ETL时遇到的两个问题

阅读量：4987 次

发布时间：2019-06-12

本文共 553 字，大约阅读时间需要 1 分钟。

项目中使用spark-sql来作ETL，遇到两个问题，记录一下。

问题1：

spark-sql –master yarn –hiveconf load_date=`date –d ..` -e ‘insert overwrite table tbl(.) select distinct * from tbl”

在hdfs上这个表所在的目录下面会产生很多的类似.hive-staging-yyyy-MM-dd…的文件

问题2：

spark-sql生成的目录特别多，尤其是我使用spark-streaming结合spark-sql来做实时数据收集与合并的时候

解决方法：

1。参考网络。配置hive.exec.stagingdir到一个特定目录，然后定时作业进行清除，请清除昨天的数据，今天的数据可能正在使用。

2。配置hive的作业项，然后使用hive进行合并小文件

set hive.merge.mapredfiles=true;

set hive.merge.size.pertask=128000000;

set hive.merge.smallfiels.avgsize=16000000;

转载于:https://www.cnblogs.com/huaxiaoyao/p/7338830.html

你可能感兴趣的文章

cf1008 A. Romaji

查看>>

[转载]教你如何塑造JavaScript牛逼形象

【分享】如何设计更加“面向对象”的三层架构系统（1）

查看>>