为什么要建设数据中台


什么是数据中台

数据中台这个名词出现很久了, 最初2014年马云正式提出“DT(Data Technology)”的概念,人类从IT时代走向DT时代,阿里内部的数据平台事业部大刀阔斧的建立整个集团的数据资产,同年,阿里从芬兰Supercell公司接触到中台概念后,在集团内部积极践行,开创了“大中台、小前台”的组织机制和业务机制,通过高效、统一的后方系统来支撑快速变化的前端业务,提高业务产出效率,减少成本投入

关于数据中台有以下几个功能特点: 1)数据中台具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现核心能力。 2)数据中台的核心就是实现公共计算逻辑下沉,实现数据复用,提供给接口

Read more

为什么建设一下传统的数据中台那么贵


为什么建设一下传统的数据中台那么贵, 我给大家分析一下:

  • 比如建设一个基于Hadoop生态的大数据平台, 你可能会选择CDH, 商业版本大概是7W一台服务器每年, 至少要6台服务器吧, 一年投入差不多要40W
  • 你还需要一个BI工具, 一般商业BI工具一年30-50W左右
  • 要做数据开发, 总得要数据开发平台, 任务调度平台这些吧, 一般价格在20-30W左右 然后基本上线开始做BI了, 这时还算不上数据中台, 也是就是个大数据仓库
  • 后来你会发现BI太慢了, 这个时候又需要购买OLAP加速引擎, 比如Kyligence, 一年50W左右
  • 有了数据, 总得提供数据服务吧, 还得采购低代码的数据服务

Read more

smartpip使用方法sample


一个完整的sample

//获取变量,以下为python语法(option)
P_DAYS = 12
MSG = '------------------------------------------------------------'
report_time = datetime.datetime.now()- datetime.timedelta(days=int(P_DAYS))
P_START_ZYM= report_time.strftime('%Y%m')

//以下为JOB专署语法
#link  lastdag 30 3600        --

Read more

smartpip不常用驱动使用方法


sqoop
填写以下内容到你的SQL文件, 比如命名为: mysqoop.sql
/*
conn =  zspl        -- 连接串, 找管理员要, 也可自定义, (必填)
sourceTable = tablename   -- 源系统表名,(必填)
columns =             -- 抽取原表的字段  a,b,c (可省略)
where =                -- 抽取时的条件  a>1 (可省略)
seq =                    -- 分隔符, 默认 \t (可省略)
query =                -- 查询语名,

Read more

使用SmartPip监控Starrocks的Routine Load


什么是Routine Load

Starrocks支持例行导入(Routine Load)功能,提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 StarRocks 中。

什么是SmartPip

smartpip是我们基于airflow研发的任务调度平台, 针对定时导入kafka数据到starrocks, 已实现了一个配置即可实现 但是如果对实时监听kafka导入, 并不太合适, 所以本文将介绍如何使用starrocks自带的routine load的功能,同时来使用smartpip实现监控功能

如何实现

  • 在smartchart中新建一个数据集, 查询内容:

    SHOW 

Read more

Starrocks与Magiccube


什么是 StarRocks

StarRocks 是新一代极速全场景MPP数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析。

StarRocks 的架构简洁,采用了全面向量化引擎,并配备全新设计的 CBO 优化器,查询速度(尤其是多表关联查询)远超同类产品

StarRocks 能很好地支持实时数据分析,并能实现对实时更新数据的高效查询。StarRocks 还支持现代化物化视图,以进一步加速查询。

使用 StarRocks,用户可以灵活构建包括大宽表、星型模型、雪花模型在内的各类模

Read more

使用webhdfs


最近在研究腾讯的TBDS产品, 但是没有相关的hdfs sdk, 因此自已就开发了一个 此sdk兼容其它平台的hdfs认证(InsecureClient, TokenClient)

安装tbds-hdfs

pip install tbds-hdfs

使用方法

获取client
SecretId = 'xxxxxxx'
SecretKey = 'xxxxxxx'
url = 'http://xxxx:50070;http://xxxxx:50070'  #支持高可用写法

from hdfs import TbdsClient
client =

Read more

SMARTCHART多项筛选联动


Smartchart对于单项筛选有通用的组件, 可以直接配置即可,但对于个性化的筛选,需要你进行一些简单的定制化,以下就针对多项筛选联动的需求来介绍如何定制化你的筛选联动效果 以我们内置的仪表盘为例,

第一步,新建一个数据集,可将其移到0号位置

第二步,在新的数据集中编写查询

select distinct H1 as heroname  from smartdemo2 limit 10

第三步,编辑此数据集的图形,可复制以下代码

//select distinct xx  from tablename
let dataset=__dataset__;
let table = '&

Read more

SMARTCHART布局指引


整理一份完整的SmartChart布局说明给大家

响应式布局

一般报表推荐使用响应式布局, 一次布局可以同时满足大屏/移动端的需求 当你新增一个数据集时, smartchart会给你一段默认的代码

<div class="col-xs-12 col-md-12" style="padding:0.5% 0.5%;" >
  <div style="height:50%;" id="container_{name}"></div>
</div>

col-md-12 :

Read more

smartchart多功能表格


大家在使用smartchart的过程中, 如果使用图形会非常方便, 因为可以直接使用echarts的配置项, 但是如果使用表格就稍微有些麻烦, 因为echarts没有相关的功能
所以我们会在3.9.9.10的版本中内置多功能表格的实现, 可以实现滚动, 及点击响应效果, 也能够快速生成常规的表格
你需要做的是复制以下代码到图形中, 按要求修改就可以了
let dataset=__dataset__;
let rowhead = dataset[0];
let dataObj = ds_createMap_all(dataset);

let tbstyle = "border: 0.

Read more