数据分析基础概念


大数据虽然已经是大家耳熟能详的热词,但数据领域里的许多术语和概念仍然会让人不明就里,我们从“做饭”这个普通人应该都有基本了解开始给大家介绍大数据虽然已经是大家耳熟能详的热词,但数据领域里的许多术语和概念仍然会让人不明就里,我们从“做饭”这个普通人应该都有基本了解开始给大家介绍

【主菜】

正所谓“巧妇难为无米之炊”,做饭首先得有食材,大数据也一样,没有数据说什么都是扯淡,所以数据就是数据人的食材(只要有数据,我不用吃饭)。

做饭通常都要包括“买菜~洗菜~配菜~炒菜”这几个必须环节,无论你是开饭店还是家里一日三餐,做饭的规模大小会有不同,但流程却是一样的。而这几个环节其实正好对应了数据人的日常工

Read more

数据比对的陷阱-不一样的的空格


在做数据分析的过程中, 进行比对查找是经常需要做的一件事,比如我们会用到EXCEL的函数vlookup, match, if...,但有一种空格陷阱你可能需要注意:

请观察这两个字符,他们是一样的, 是么? 你可以复制下来尝试

John Yan
John Yan

但是你复制到EXCEL中你会发现, 他们不一样, 如下图

为什么?

因为他们真的不一样, 中间的空格, 一个是普通的空格, 另外一个是"不间断空格"

这种不间断空格是用来防止行尾单词间断的空格, 其实是很常见的, 但会为我们做数据分析带来困惑, 而且它是不会被trim(去除左右空格的公式)的, 所以当你发现无法trim两端的空格,

Read more

SMARTDATA数据库数据导出


SMARTDATA数据处理工具 - 数据库数据导出

从数据库下载数据, 一般的工具只提供了查询, 或下载成文件 但是最方便的大家应该是 希望能直接下载到当前的EXCEL表格 或到 表格的任意位置, 这样你就能快速的对你数据进行分析处理

SmartData 智慧数据 提供了此功能, 入口: 菜单 --> 数据导出 --> DB

建意你用ODBC的连接方式:

以连接impala为列, 首先你要确定你的EXCEL版本是32位还是64位(注意不是操作系统的版本), 进入系统 "ODBC 数据源", 点击 "添加", 查看是否已有相应的ODBC驱动 如果没有你需要下载对应的位数的ODBC驱

Read more

ADO连接字符串


花了一些时间整理了在ADO中常用的连接字符串,方便查阅和比较。

并对其中的参数做了必要说明,期望让其能让多数人能看懂。

本帖内容涵盖了连接到Access,Excel,TXT,SQL Server,MySQL的连接字符串。


1.Access Access 2003 Access 2007 Access 2010 Access 2013

本地文件:

Provider=Microsoft.ACE.OLEDB.12.0;Data Source=C:\myFolder\myAccessFile.accdb; Persist Security Info=False;


网络文件(IP地址前为双反斜杠,例

Read more

Smart智慧数据处理常见问题


使用说明

点击进入使用说明

常见的安装问题:

- 如果无法看到图标或运行出错, 你的系统可能缺失以下依赖包, 请安装:

微软VSTO组件

- 安装完后还看不到图标, 可在EXCEL中点击 文件 -> 选项 , 最下方 管理 中选 "COM 加载项" 然后 点击 "转到", 如下图, 将SmartData的勾打上

- 如果还无法使用, 你可能还需要安装Frame插件:

微软.NET Framework 4.5

- 如果出现如下受信任的发布者问题, 你可在EXCEL中点击 文件 --> 选项 --> 信任中心 --> 加载项 --> 将勾选的选项取消

- 如果出

Read more

SmartChart的Redis数据源


你可能会有这样的一些需求, 展示数据是要通过外部的程序计算好,如一些实时的计算场景,用spark计算好的数据 或爬虫爬取的数据, 然后写入redis或nosql的数据库,最后由前端图形直接展示或数据下载

SmartChart支持这一块的应用

你可以创建一个redis的连接池, 然后按照通用的方法建立数据集 不同的是, 数据集的SQL区不再是写sql代码, 而只需要写redis中的keyname

如redis中存储的数据是keyname 为 "指标A", 数据 '{"长沙":1,"上海":2}' 这样我们只需要在数据集中写上 指标A 即可, 最后你会得到{"长沙":1,"上海":2}的返回结

Read more

SQL常用转化函数


Oracle:

-- Oracle 行转列 pivot函数基本用法
select *
  from SalesList pivot(
    max(salesNum) for shangPin in (   --shangPin 即要转成列的字段
        '上衣' as 上衣,    --max(salesNum) 此处必须为聚合函数,
        '裤子' as 裤子,       --in () 对要转成列的每一个值指定一个列名
        '袜子' as 袜子,
        '帽子' as 帽子
   

Read more

KETTLE使用指南


Kettle工程存储方式有两种:一种是以XML形式存储,一种是以资源库方式存储。

Kettle中有两类设计分别是:Transformation(转换)与Job(作业),Transformation完成针对数据的基础转换,Job则完成整个工作流的控制。

 

Kettle常用三大家族:Spoon、Pan、Kitchen。

Spoon:通过图形界面方式设计、运行、调试Job与Transformation。

Pan: 通过脚本命令方式来运行Transformation。

Kitchen: 通过脚本命令方式来运行Job,一般就是通过调用Kitchen脚本来完成定时任务。

目前Kettle有两种版本:一种

Read more

Django常用Import模块


#用户相关
from django.contrib.auth import models
from django.contrib.auth import authenticate
from django.contrib.auth.models import Group,User

#Model,Admin,Form, Url中需引用
from django.conf import settings
from django.db import models
from django.contrib import admin
from django import forms
from django.

Read more

SmartData数据接口


SmartData借助SmartChart的数据集功能, 可以非常方便的实现数据对外微服务

  • 在"大数据接口" ---> "API设定" 中添加 visitor 和 Token
  • 新建 "数据集" 并授权给 API设定中的 visitor, 这样就完成了
  • 注意: post请求时会缓存数据, 所以请设定一个合理的缓存时间

接口请求方式

GET 请求
#接口请求格式: 
url: /echart/dataset_api/?visitor=xxx&token=xxx&type=xxx 数据集名或id名
#接口返回格式
Json: 
{
"data":[[]]

Read more