分类目录归档:大数据平台

浅谈数据治理


数据治理是个长期过程, 要想完全治理好, 业务系统要重构, 企业承受不了. 所以真正能落地的就是边用边治理,不用起来也就不知道问题在那. 让数据可视了, 数据就会说话, 就知道数据在那出了问题.

数据治理分两个种方式, 一种是集中后在数据中台进行治理, 一种是在业务系统治理好. 最理想的方式是在业务系统治理. 但是由于企业的业务系统一般不是自已开发的, 供应商配合也差, 有的可能还是SAAS的,所以在数据应用前期大部分是在中台治理, 然后反哺业务系统进行治理

现代企业在做信息化的同时一定要考虑数据化的需求, 也就是最好同步进行, 而不是说一定要先有信息化才有数字化

如果数据不拉通在一起看就比

Read more

为什么要建设数据中台


什么是数据中台

数据中台这个名词出现很久了, 最初2014年马云正式提出“DT(Data Technology)”的概念,人类从IT时代走向DT时代,阿里内部的数据平台事业部大刀阔斧的建立整个集团的数据资产,同年,阿里从芬兰Supercell公司接触到中台概念后,在集团内部积极践行,开创了“大中台、小前台”的组织机制和业务机制,通过高效、统一的后方系统来支撑快速变化的前端业务,提高业务产出效率,减少成本投入

关于数据中台有以下几个功能特点: 1)数据中台具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现核心能力。 2)数据中台的核心就是实现公共计算逻辑下沉,实现数据复用,提供给接口

Read more

带你了解大数据这些事


一文带你了解大数据这些事

介绍

如果您从大数据开始,通常会被众多工具,框架和选项所困扰。 在本文中,我将尝试总结其成分和基本配方,以帮助您开始大数据之旅。 我的目标是对不同的工具进行分类,并试图解释每个工具的目的以及它如何适应生态系统。

首先,让我们回顾一些注意事项,并检查您是否确实遇到大数据问题。 我将重点介绍可以在本地部署的开源解决方案。 云提供商为您的数据需求提供了几种解决方案,我将略微提及它们。 如果您在云中运行,则应真正检查可用的选项,并与开源解决方案进行比较,以了解成本,可操作性,可管理性,监控和上市时间。 > Big Data Ecosystem(仅供参考,不是最新的!!

Read more

Sqoop导入使用方法


从RDBMS(mysql)中导入数据到hdfs

全部导入(导入一个表中的数据)

在sqoop的安装目录下执行以下命令:

bin/sqoop import \
--connect jdbc:mysql://xxxx:3306/sqoop_test \
--username root \
--password 061111 \
--table staff \
--target-dir /user/sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

–connect:表示连接的数

Read more

Kudu常用SQL操作


建表语句

CREATE TABLE my_first_table
(
  id BIGINT,
  name STRING,
  PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;

CREATE TABLE kudu_testdb.perf_test_t1
(
id string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
int_value int,
bigint_value bigint, 
timestamp_value timestamp, 
bool_valu

Read more

Clouder Hue 二次开发指引


使用CM 安装的童鞋可能会很困惑, HUE源码安装到那里去了, 要怎么修改呢?

首先安装位置在: /opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/lib/

如果你要修改认证模块:

desktop/core/src/desktop/auth/views.py
266 -- add tokenlogin
desktop/core/src/desktop/urls.py
59 -- add url

修改页面模板

desktop/core/src/desktop/templates/common_header.mako
226  -- addlink

Read more