分类目录归档:大数据平台

StarRocks FE开发


Setup StarRocks FE development environment on IDEA

This tutorial is based on macOS and has been tested on Apple Chip(M1, M2). Even if you are not using macOS, you can also refer to this tutorial.

Requirements

Thrift 0.13

If you installed Thrift directly with brew, you will find that there is no vers

Read more

浅谈数据治理


数据治理是个长期过程, 要想完全治理好, 业务系统要重构, 企业承受不了. 所以真正能落地的就是边用边治理,不用起来也就不知道问题在那. 让数据可视了, 数据就会说话, 就知道数据在那出了问题.

数据治理分两个种方式, 一种是集中后在数据中台进行治理, 一种是在业务系统治理好. 最理想的方式是在业务系统治理. 但是由于企业的业务系统一般不是自已开发的, 供应商配合也差, 有的可能还是SAAS的,所以在数据应用前期大部分是在中台治理, 然后反哺业务系统进行治理

现代企业在做信息化的同时一定要考虑数据化的需求, 也就是最好同步进行, 而不是说一定要先有信息化才有数字化

如果数据不拉通在一起看就比

Read more

为什么要建设数据中台


什么是数据中台

数据中台这个名词出现很久了, 最初2014年马云正式提出“DT(Data Technology)”的概念,人类从IT时代走向DT时代,阿里内部的数据平台事业部大刀阔斧的建立整个集团的数据资产,同年,阿里从芬兰Supercell公司接触到中台概念后,在集团内部积极践行,开创了“大中台、小前台”的组织机制和业务机制,通过高效、统一的后方系统来支撑快速变化的前端业务,提高业务产出效率,减少成本投入

关于数据中台有以下几个功能特点: 1)数据中台具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现核心能力。 2)数据中台的核心就是实现公共计算逻辑下沉,实现数据复用,提供给接口

Read more

Starrocks与Magiccube


什么是 StarRocks

StarRocks 是新一代极速全场景MPP数据库。StarRocks 的愿景是能够让用户的数据分析变得更加简单和敏捷。用户无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析。

StarRocks 的架构简洁,采用了全面向量化引擎,并配备全新设计的 CBO 优化器,查询速度(尤其是多表关联查询)远超同类产品

StarRocks 能很好地支持实时数据分析,并能实现对实时更新数据的高效查询。StarRocks 还支持现代化物化视图,以进一步加速查询。

使用 StarRocks,用户可以灵活构建包括大宽表、星型模型、雪花模型在内的各类模

Read more

带你了解大数据这些事


一文带你了解大数据这些事

介绍

如果您从大数据开始,通常会被众多工具,框架和选项所困扰。 在本文中,我将尝试总结其成分和基本配方,以帮助您开始大数据之旅。 我的目标是对不同的工具进行分类,并试图解释每个工具的目的以及它如何适应生态系统。

首先,让我们回顾一些注意事项,并检查您是否确实遇到大数据问题。 我将重点介绍可以在本地部署的开源解决方案。 云提供商为您的数据需求提供了几种解决方案,我将略微提及它们。 如果您在云中运行,则应真正检查可用的选项,并与开源解决方案进行比较,以了解成本,可操作性,可管理性,监控和上市时间。 > Big Data Ecosystem(仅供参考,不是最新的!!

Read more

Sqoop导入使用方法


从RDBMS(mysql)中导入数据到hdfs

全部导入(导入一个表中的数据)

在sqoop的安装目录下执行以下命令:

bin/sqoop import \
--connect jdbc:mysql://xxxx:3306/sqoop_test \
--username root \
--password 061111 \
--table staff \
--target-dir /user/sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\t"

–connect:表示连接的数

Read more

Kudu常用SQL操作


建表语句

CREATE TABLE my_first_table
(
  id BIGINT,
  name STRING,
  PRIMARY KEY(id)
)
PARTITION BY HASH PARTITIONS 16
STORED AS KUDU;

CREATE TABLE kudu_testdb.perf_test_t1
(
id string ENCODING PLAIN_ENCODING COMPRESSION SNAPPY,
int_value int,
bigint_value bigint, 
timestamp_value timestamp, 
bool_valu

Read more

Clouder Hue 二次开发指引


使用CM 安装的童鞋可能会很困惑, HUE源码安装到那里去了, 要怎么修改呢?

首先安装位置在: /opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/lib/

如果你要修改认证模块:

desktop/core/src/desktop/auth/views.py
266 -- add tokenlogin
desktop/core/src/desktop/urls.py
59 -- add url

修改页面模板

desktop/core/src/desktop/templates/common_header.mako
226  -- addlink

Read more