SMARTCHART使用指南


SmartChart designed for you

SmartChart是为你而生的一个产品, 你只需要使用通用开发技术就可以使用,无需学习特定的技能, 因为她的通用性, 所以让你的知识不会因为改变而淘汰

因为她的灵活性, 你可以充分发挥你的智慧让她变得非常的Smart

抛弃繁琐的操作, 加速你的开发效率, 和BI产品相比, 如同Linux与Window的区别

她是一个数据集装箱, 让你非常方便的把数据组装起来后, 可使用统一的接口对外服务,支持系统间嵌入,实时,快速定制化开发. 你也可以理解为数据中台, 用可视化提供统一数据服务. 这是一个面向开发人员的平台, 实现数据的最后一公里

Read more

smartpip使用flinkcdc实时同步


在smartpip中配置flinkcdc即可实现,数据库实时同步

同步任务说明

  • 全自动建表并能自动感知源表结构变化,自动变化
  • 支持整库同步, 因此建议针对一个数据源只需启动一个任务即可
  • 实时同步任务启动后, 定时任务为自动监控任务
  • 如果修改任务后需在flink web中先取消任务后再可提交生效

简单的全库同步设定

比如源库为training, 则会自动在目标源建相同名称的库和表

##template = test_starrocks_flink
##name = test_starrocks2
##tables = training.\.*
##config =

批量路由

##templa

Read more

duckdb语法


CREATE TABLE weather (
    city    VARCHAR,
    temp_lo INTEGER, -- minimum temperature on a day
    temp_hi INTEGER, -- maximum temperature on a day
    prcp    FLOAT,
    date    DATE
);
csv文件导入数据并建表
CREATE TABLE 'cars' AS SELECT * FROM read_csv_auto('cars.csv');
CREATE TEMP TABLE

Read more

smartpip调用API


smartpip支持所有Airflow的API接口,为了更方便使用可以采用smartchart的API服务功能 以下以触发调度为例

  • 在smartchart数据集中新建一个python数据源的数据集
  • 填写如下代码

    from etl.smartpip import get_auth_hearder
    import requests
    header=get_auth_hearder()
    url='{smartpip_url}/api/v1/dags/{dag_id}/dagRuns'
    ds=requests.post(url=url,headers=header,json={"

Read more

smartpip微信消息


  • 在smartchart中新建一个数据源,如下图 图片alt

  • 新建一个数据集并使用qiweiMsg这个数据源, 按照企微消息发送文档填写, 记下数据集ID如 12

{
   "touser" : "1359xxxxx",
   -- "totag" : "4",
   "msgtype" : "text",
   "agentid" : xxxxxxx,
   "text" : {
       "content" : 

Read more

smartpip常用自定义函数


功能说明 函数说明 备注
文件上传 smart_upload(csvfilepath)
获取数据 get_dataset(id, param={})
发送邮件 dash_mail(标题, 内容, 邮件列表)
执行shell run_bash(cmdStr)
执行datax run_datax('DAG名/任务名', para_dict)
执行sql run_sql_file('DAG名/任务名', db_connect='starrocks', para_dict=None)
执行kettle run_kettle('DAG名/任务名.ktr',

Read more

smartpip API数据接入


定义接入标准function

假设API的返回格式为:
{'data':[{'a':1,'b':2},..]}
def _get_api_data(param):
    import json, requests
    param = json.loads(param)
    res = requests.post(url=url, json=param).json()['data']
    res = json.dumps(res).encode()
    return res

在api设定中

##apiConn=get_api_data
##param={ "p1": xxx,"

Read more

向量数据库


也许你最近可能听过这样的新闻,某向量数据库的初创公司刚写好 PPT,就获得了几千万的投资,某公司的开源的向量数据库因其代码的简陋而登上了 Hackernews 等等。在过去几个月时间中, AI 应用的发展如火如荼,带动了 AI 应用技术栈上下游的火爆,而向量数据库就是其中最热门的之一。

GPT 的缺陷

过去几个月的时间,我们正处于人工智能的革命中,其中最耀眼的莫过于 GPT-3.5/4 的横空出世,而 GPT-3.5/4 带给我们无限震撼的同时,其天然的缺陷和诸多的限制也让开发者头痛不已,例如其输入端上下文(tokens)大小的限制困扰着很多的开发者和消费者,像 gpt-3.5-turbo 模

Read more

smartpip任务中实现获取执行参数


airflow支持基于时间的任务回跑, 这样我们就需要使用到airflow自带的参数, 如 "execution_date"

airflow能向任务传递的参数如下:

{'conf': , 'dag': , 'dag_run':, 
'ds': '2022-07-13',
'ds_nodash': '20220713', 
'execution_date': DateTime(2022, 7, 13, 2, 4, 33, 244294, tzinfo=Timezone('+00:00')),
'inlets': [], 
'macros': ,
'next_ds': '2022-07-13',

Read more

SQL数据分析常用函数


SQL 有很多可用于计数和计算的内建函数。常用的函数有聚合函数、日期和时间函数、转换函数、窗口函数、字符串函数等。

聚合函数

名称 功能 备注
AVG 平均值
COUNT 非空值的个数
FIRST 第一个记录的值
LAST 最后一个记录的值
MAX() 最大值
MIN 最小值
SUM 总和

日期函数

名称 功能 备注
CURDATE 当前日期
CURTIME 当前时间
NOW 当前日期和时间
UNIX_TIMESTAMP 返回 UNIX 时间戳
DATE_ADD 将两个日期相加
DATE_FORMA

Read more