分类目录归档:数据管道

smartpip实现循环抽取任务


比如数据库中存在一些表, 这些表名后缀是按天命名的, 现在需要自动抽取汇总到同一个表中, 这样就需要用到循环抽取 smartpip中已有datax组件, 但只能进行单一表格抽取, 不能增加逻辑 所以我们需要使用到smartpip的diy组件功能 首先我们需要新一个datax抽取任务,在这个任务中我们传递参数ZYM, 比如:

#datax job1  ZYM

之后再新一建一个diy任务, 实现循环抽取:

ZYM = '202001'
def fun_job2():
    job = os.path.join(ETL_FILE_PATH , '项目名/job1.sql')
    report

Read more

为什么建设一下传统的数据中台那么贵


为什么建设一下传统的数据中台那么贵, 我给大家分析一下:

  • 比如建设一个基于Hadoop生态的大数据平台, 你可能会选择CDH, 商业版本大概是7W一台服务器每年, 至少要6台服务器吧, 一年投入差不多要40W
  • 你还需要一个BI工具, 一般商业BI工具一年30-50W左右
  • 要做数据开发, 总得要数据开发平台, 任务调度平台这些吧, 一般价格在20-30W左右 然后基本上线开始做BI了, 这时还算不上数据中台, 也是就是个大数据仓库
  • 后来你会发现BI太慢了, 这个时候又需要购买OLAP加速引擎, 比如Kyligence, 一年50W左右
  • 有了数据, 总得提供数据服务吧, 还得采购低代码的数据服务

Read more

smartpip使用方法sample


一个完整的sample

//获取变量,以下为python语法(option)
P_DAYS = 12
MSG = '------------------------------------------------------------'
report_time = datetime.datetime.now()- datetime.timedelta(days=int(P_DAYS))
P_START_ZYM= report_time.strftime('%Y%m')

//以下为JOB专署语法
#link  lastdag 30 3600        --

Read more

smartpip不常用驱动使用方法


sqoop
填写以下内容到你的SQL文件, 比如命名为: mysqoop.sql
/*
conn =  zspl        -- 连接串, 找管理员要, 也可自定义, (必填)
sourceTable = tablename   -- 源系统表名,(必填)
columns =             -- 抽取原表的字段  a,b,c (可省略)
where =                -- 抽取时的条件  a>1 (可省略)
seq =                    -- 分隔符, 默认 \t (可省略)
query =                -- 查询语名,

Read more

使用SmartPip监控Starrocks的Routine Load


什么是Routine Load

Starrocks支持例行导入(Routine Load)功能,提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 StarRocks 中。

什么是SmartPip

smartpip是我们基于airflow研发的任务调度平台, 针对定时导入kafka数据到starrocks, 已实现了一个配置即可实现 但是如果对实时监听kafka导入, 并不太合适, 所以本文将介绍如何使用starrocks自带的routine load的功能,同时来使用smartpip实现监控功能

如何实现

  • 在smartchart中新建一个数据集, 查询内容:

    SHOW 

Read more

KETTLE数据同步方法


kjb和ktr的选择

kettle的数据同步, 你会用到ktr和kjb

ktr中的数据流动不是阻塞的, 是并行执行的, 如果你使用如下:
"表输入" --> "表输出" --> "执行SQL脚本"

这样"执行SQL脚本" 会被执行很多次,

但kjb不一样, kjb会等待一个组件完成再执行另外一个, 所以很多人 会使用kjb 嵌入 ktr的解决方案来做数据抽取后执行脚本

但是如果已经有了任务的调度平台, 再用kjb 来 嵌套 ktr 的解决方案 就会显得臃肿, 所以可以考虑直接在ktr完成

以下为解决方法:

在需要阻塞的地方加入 "阻塞数据" 的组件, 将"Pass all rows

Read more

ADO连接字符串


花了一些时间整理了在ADO中常用的连接字符串,方便查阅和比较。

并对其中的参数做了必要说明,期望让其能让多数人能看懂。

本帖内容涵盖了连接到Access,Excel,TXT,SQL Server,MySQL的连接字符串。


1.Access Access 2003 Access 2007 Access 2010 Access 2013

本地文件:

Provider=Microsoft.ACE.OLEDB.12.0;Data Source=C:\myFolder\myAccessFile.accdb; Persist Security Info=False;


网络文件(IP地址前为双反斜杠,例

Read more

Smart智慧数据处理常见问题


使用说明

点击进入使用说明

常见的安装问题:

- 如果无法看到图标或运行出错, 你的系统可能缺失以下依赖包, 请安装:

微软VSTO组件

- 安装完后还看不到图标, 可在EXCEL中点击 文件 -> 选项 , 最下方 管理 中选 "COM 加载项" 然后 点击 "转到", 如下图, 将SmartData的勾打上

- 如果还无法使用, 你可能还需要安装Frame插件:

微软.NET Framework 4.5

- 如果出现如下受信任的发布者问题, 你可在EXCEL中点击 文件 --> 选项 --> 信任中心 --> 加载项 --> 将勾选的选项取消

- 如果出

Read more

SQL常用转化函数


Oracle:

-- Oracle 行转列 pivot函数基本用法
select *
  from SalesList pivot(
    max(salesNum) for shangPin in (   --shangPin 即要转成列的字段
        '上衣' as 上衣,    --max(salesNum) 此处必须为聚合函数,
        '裤子' as 裤子,       --in () 对要转成列的每一个值指定一个列名
        '袜子' as 袜子,
        '帽子' as 帽子
   

Read more

KETTLE使用指南


Kettle工程存储方式有两种:一种是以XML形式存储,一种是以资源库方式存储。

Kettle中有两类设计分别是:Transformation(转换)与Job(作业),Transformation完成针对数据的基础转换,Job则完成整个工作流的控制。

 

Kettle常用三大家族:Spoon、Pan、Kitchen。

Spoon:通过图形界面方式设计、运行、调试Job与Transformation。

Pan: 通过脚本命令方式来运行Transformation。

Kitchen: 通过脚本命令方式来运行Job,一般就是通过调用Kitchen脚本来完成定时任务。

目前Kettle有两种版本:一种

Read more