分类目录归档:大数据平台

数据建模不仅仅是SQL


如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。

真实场景举例: ⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。 由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的嵌套。这种SQL对资源消耗⾮常⼤,会造成队列阻塞,影响其他数仓任务,会引起数据开发的不满。数据开发会要求收回分析师的原始数据读取权限,分析师⼜会抱怨数仓数据不完善,要啥没啥,⼀个需求经常要等⼀周甚⾄半个...

Read more

Kudu常用SQL操作


建表语句

CREATE TABLE my_first_table
(
  id BIGINT,
  name STRING,
  PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;

CREATE TABLE kudu_testdb.perf_test_t1
(
id string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
int_value int,
bigint_value bigint, 
timestamp_value timestamp, 
bool_v...

Read more

Clouder Hue 二次开发指引


使用CM 安装的童鞋可能会很困惑, HUE源码安装到那里去了, 要怎么修改呢?

首先安装位置在: /opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/lib/

如果你要修改认证模块:

desktop/core/src/desktop/auth/views.py
266 -- add tokenlogin
desktop/core/src/desktop/urls.py
59 -- add url

修改页面模板

desktop/core/src/desktop/templates/common_header.mako
226  -- addl...

Read more