分类目录归档:数据管道

为什么建设一下传统的数据中台那么贵


为什么建设一下传统的数据中台那么贵, 我给大家分析一下:

  • 比如建设一个基于Hadoop生态的大数据平台, 你可能会选择CDH, 商业版本大概是7W一台服务器每年, 至少要6台服务器吧, 一年投入差不多要40W
  • 你还需要一个BI工具, 一般商业BI工具一年30-50W左右
  • 要做数据开发, 总得要数据开发平台, 任务调度平台这些吧, 一般价格在20-30W左右 然后基本上线开始做BI了, 这时还算不上数据中台, 也是就是个大数据仓库
  • 后来你会发现BI太慢了, 这个时候又需要购买OLAP加速引擎, 比如Kyligence, 一年50W左右
  • 有了数据, 总得提供数据服务吧, 还得采购低代码的数据服务

Read more

smartpip使用方法sample


一个完整的sample

//获取变量,以下为python语法(option)
P_DAYS = 12
MSG = '------------------------------------------------------------'
report_time = datetime.datetime.now()- datetime.timedelta(days=int(P_DAYS))
P_START_ZYM= report_time.strftime('%Y%m')

//以下为JOB专署语法
#link  lastdag 30 3600        --

Read more

smartpip不常用驱动使用方法


sqoop
填写以下内容到你的SQL文件, 比如命名为: mysqoop.sql
/*
conn =  zspl        -- 连接串, 找管理员要, 也可自定义, (必填)
sourceTable = tablename   -- 源系统表名,(必填)
columns =             -- 抽取原表的字段  a,b,c (可省略)
where =                -- 抽取时的条件  a>1 (可省略)
seq =                    -- 分隔符, 默认 \t (可省略)
query =                -- 查询语名,

Read more

使用SmartPip监控Starrocks的Routine Load


什么是Routine Load

Starrocks支持例行导入(Routine Load)功能,提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 StarRocks 中。

什么是SmartPip

smartpip是我们基于airflow研发的任务调度平台, 针对定时导入kafka数据到starrocks, 已实现了一个配置即可实现 但是如果对实时监听kafka导入, 并不太合适, 所以本文将介绍如何使用starrocks自带的routine load的功能,同时来使用smartpip实现监控功能

如何实现

  • 在smartchart中新建一个数据集, 查询内容:

    SHOW 

Read more

Starrocks与Magiccube


什么是 StarRocks

StarRocks 是新一代极速全场景MPP数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析。

StarRocks 的架构简洁,采用了全面向量化引擎,并配备全新设计的 CBO 优化器,查询速度(尤其是多表关联查询)远超同类产品

StarRocks 能很好地支持实时数据分析,并能实现对实时更新数据的高效查询。StarRocks 还支持现代化物化视图,以进一步加速查询。

使用 StarRocks,用户可以灵活构建包括大宽表、星型模型、雪花模型在内的各类模

Read more

KETTLE数据同步方法


kjb和ktr的选择

kettle的数据同步, 你会用到ktr和kjb

ktr中的数据流动不是阻塞的, 是并行执行的, 如果你使用如下:
"表输入" --> "表输出" --> "执行SQL脚本"

这样"执行SQL脚本" 会被执行很多次,

但kjb不一样, kjb会等待一个组件完成再执行另外一个, 所以很多人 会使用kjb 嵌入 ktr的解决方案来做数据抽取后执行脚本

但是如果已经有了任务的调度平台, 再用kjb 来 嵌套 ktr 的解决方案 就会显得臃肿, 所以可以考虑直接在ktr完成

以下为解决方法:

在需要阻塞的地方加入 "阻塞数据" 的组件, 将"Pass all rows

Read more

Smart智慧数据处理常见问题


使用说明

点击进入使用说明

常见的安装问题:

- 如果无法看到图标或运行出错, 你的系统可能缺失以下依赖包, 请安装:

微软VSTO组件

- 安装完后还看不到图标, 可在EXCEL中点击 文件 -> 选项 , 最下方 管理 中选 "COM 加载项" 然后 点击 "转到", 如下图, 将SmartData的勾打上

- 如果还无法使用, 你可能还需要安装Frame插件:

微软.NET Framework 4.5

- 如果出现如下受信任的发布者问题, 你可在EXCEL中点击 文件 --> 选项 --> 信任中心 --> 加载项 --> 将勾选的选项取消

- 如果出

Read more

KETTLE使用指南


Kettle工程存储方式有两种:一种是以XML形式存储,一种是以资源库方式存储。

Kettle中有两类设计分别是:Transformation(转换)与Job(作业),Transformation完成针对数据的基础转换,Job则完成整个工作流的控制。

 

Kettle常用三大家族:Spoon、Pan、Kitchen。

Spoon:通过图形界面方式设计、运行、调试Job与Transformation。

Pan: 通过脚本命令方式来运行Transformation。

Kitchen: 通过脚本命令方式来运行Job,一般就是通过调用Kitchen脚本来完成定时任务。

目前Kettle有两种版本:一种

Read more

数据上传设定指南


Smart Data 支持非常便捷的手工数据管理:

  • 无需开发ETL, 快速设定, 快速上传
  • 支持数据质量校验, 上传提示, 邮件通知, 上传模板管理
  • 权限管理, 数据预清洗, 支持自动增加时间戳和上传人字段
  • 可上传到任意数据源, 统一数据收集入口
  • 智能转码, 为你解决上传数据乱码的烦恼
  • 同时支持EXCEL和CSV上传
  • 支持下载历史数据,修改后上传

以上传大数据平台为例, 做基本流程介绍:

STEP1: 自动生成建表语句, 建意下载我们的开发工具 数据处理与开发工具 STEP2: 完成简单的配置即可

STEP3: 高级配置(此步骤为可选),填写我们上传完成后, 需要做的进一步处理, 此

Read more

SmartPip DAG设定方法


关于任务调度的配置方法:

自定义参数方法

#当前时间
report_time = datetime.datetime.now()
#当前时间,往后推一天, 也可以小时(hours), 分钟(minutes), 秒(seconds)...
report_time = datetime.datetime.now()- datetime.timedelta(days=1)
#获取上个月最后一天
report_time = datetime.datetime.now().replace(day=1) - datetime.timedelta(days=1)
#格式化时间为字符串
时间:(%Y-%m-%

Read more