Sqoop导入使用方法


从RDBMS(mysql)中导入数据到hdfs

全部导入(导入一个表中的数据)

在sqoop的安装目录下执行以下命令:

bin/sqoop import \
--connect jdbc:mysql://xxxx:3306/sqoop_test \
--username root \
--password 061111 \
--table staff \
--target-dir /user/sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

–connect:表示连接的数

Read more

ECharts 基础概念


Smartchat基于Echarts,所以开发Smartchart,你需要了解下ECharts基础概念

只需要围绕option进行定制设定。echarts 的使用者,使用 option 来描述其对图表的各种需求,包括:有什么数据、要画什么图表、图表长什么样子、含有什么组件、组件能操作什么事情等等。简而言之,option 表述了:数据、数据如何映射成图形、交互行为。

echarts 实例

一个网页中可以创建多个 echarts 实例。每个 echarts 实例 中可以创建多个图表和坐标系等等(用 option 来描述)。准备一个 DOM 节点(作为 echarts 的渲染容器),就可以在上面创建

Read more

SmartChart激活与使用说明


版权声明

  • 为项目能持续维护,并保持稳定的模式,按照社区投票的意见, 开始区分免费版本和专业版本
  • 目前免费版本无需激活, 你可以使用到常用的功能,我们也会保持持续的更新
  • 为保持项目的健康发展,如需进行商用,您需提供使用方并知会作者进行授权

免费版使用者必须保留SmartChart相关版权标识及LOGO,禁止对其进行修改和删除 如果违反,将保留对侵权者追究责任的权利

增值服务

  • SmartChart专业版功能多,灵活度很高,但入门有一定门槛,针对入门问题,建意您直接购买专业版本,我们提供一对一速成指导服务,极大地减少探索成本
  • 为方便大家快速入门smartchart,避免探索者中的痛苦,我们准

Read more

KETTLE数据同步方法


kjb和ktr的选择

kettle的数据同步, 你会用到ktr和kjb

ktr中的数据流动不是阻塞的, 是并行执行的, 如果你使用如下:
"表输入" --> "表输出" --> "执行SQL脚本"

这样"执行SQL脚本" 会被执行很多次,

但kjb不一样, kjb会等待一个组件完成再执行另外一个, 所以很多人 会使用kjb 嵌入 ktr的解决方案来做数据抽取后执行脚本

但是如果已经有了任务的调度平台, 再用kjb 来 嵌套 ktr 的解决方案 就会显得臃肿, 所以可以考虑直接在ktr完成

以下为解决方法:

在需要阻塞的地方加入 "阻塞数据" 的组件, 将"Pass all rows

Read more

SmartChart数据集之Pandas


SmartChart数据集可以使用Pandas来做数据处理,完全兼容Pandas语法

ds变量名是最终的数据集, 你需要产出它即可

内置函数
#读取数据集
ds_df(id,para_dict=None,cachestr=None,columns=None)
df=ds_df(359)  #获取ID为359这个数据集的数据并转化为pandas的dataframe(df)
df=mysmart.pddf(359,columns=['C1','C2','D1']) #可指定标题名称

#读取excel
import pandas as pd
df =

Read more

SMARTCHART动态效果


第一种动态效果: 按系列轮放

参考: 饼图自动播放

设定方法:

  • 如果不改动图形, 可以在"仪表盘" --> 高级设定中 进行

    //动态播放
      "animate":{"2":{"dataLen":5,"interval":1000,"showtip":1}},
  • 以上方法最简单,但有一个弊端, 需要指定dataLen, 有时可能dataLen不固定,这样你可以采用在图形设定的最后加上一段即可:

    //基于数据项动态设定
    startSelectAnimate(myChart__name__,legend_label.length,1000,1);

第二种动态效果: 时间轴模式(当然不一

Read more

数据建模不仅仅是SQL


如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。

真实场景举例: ⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅式服务于业务部⻔的运营。但是在数据中台构建之前,分析师经常发现⾃⼰没有可以复⽤的数据,不得不使⽤原始数据进⾏清洗、加⼯、计算指标。 由于他们⼤多是⾮技术专业出⾝,写的SQL质量⽐较差,甚⾄⻅过5层以上的嵌套。这种SQL对资源消耗⾮常⼤,会造成队列阻塞,影响其他数仓任务,会引起数据开发的不满。数据开发会要求收回分析师的原始数据读取权限,分析师⼜会抱怨数仓数据不完善,要啥没啥,⼀个需求经常要等⼀周甚⾄半个⽉。分

Read more

数据分析基础概念


大数据虽然已经是大家耳熟能详的热词,但数据领域里的许多术语和概念仍然会让人不明就里,我们从“做饭”这个普通人应该都有基本了解开始给大家介绍大数据虽然已经是大家耳熟能详的热词,但数据领域里的许多术语和概念仍然会让人不明就里,我们从“做饭”这个普通人应该都有基本了解开始给大家介绍

【主菜】

正所谓“巧妇难为无米之炊”,做饭首先得有食材,大数据也一样,没有数据说什么都是扯淡,所以数据就是数据人的食材(只要有数据,我不用吃饭)。

做饭通常都要包括“买菜~洗菜~配菜~炒菜”这几个必须环节,无论你是开饭店还是家里一日三餐,做饭的规模大小会有不同,但流程却是一样的。而这几个环节其实正好对应了数据人的日常工

Read more

数据比对的陷阱-不一样的的空格


在做数据分析的过程中, 进行比对查找是经常需要做的一件事,比如我们会用到EXCEL的函数vlookup, match, if...,但有一种空格陷阱你可能需要注意:

请观察这两个字符,他们是一样的, 是么? 你可以复制下来尝试

John Yan
John Yan

但是你复制到EXCEL中你会发现, 他们不一样, 如下图

为什么?

因为他们真的不一样, 中间的空格, 一个是普通的空格, 另外一个是"不间断空格"

这种不间断空格是用来防止行尾单词间断的空格, 其实是很常见的, 但会为我们做数据分析带来困惑, 而且它是不会被trim(去除左右空格的公式)的, 所以当你发现无法trim两端的空格,

Read more

SMARTDATA数据库数据导出


SMARTDATA数据处理工具 - 数据库数据导出

从数据库下载数据, 一般的工具只提供了查询, 或下载成文件 但是最方便的大家应该是 希望能直接下载到当前的EXCEL表格 或到 表格的任意位置, 这样你就能快速的对你数据进行分析处理

SmartData 智慧数据 提供了此功能, 入口: 菜单 --> 数据导出 --> DB

建意你用ODBC的连接方式:

以连接impala为列, 首先你要确定你的EXCEL版本是32位还是64位(注意不是操作系统的版本), 进入系统 "ODBC 数据源", 点击 "添加", 查看是否已有相应的ODBC驱动 如果没有你需要下载对应的位数的ODBC驱

Read more