数据分析基础概念


大数据虽然已经是大家耳熟能详的热词,但数据领域里的许多术语和概念仍然会让人不明就里,我们从“做饭”这个普通人应该都有基本了解开始给大家介绍大数据虽然已经是大家耳熟能详的热词,但数据领域里的许多术语和概念仍然会让人不明就里,我们从“做饭”这个普通人应该都有基本了解开始给大家介绍

【主菜】

正所谓“巧妇难为无米之炊”,做饭首先得有食材,大数据也一样,没有数据说什么都是扯淡,所以数据就是数据人的食材(只要有数据,我不用吃饭)。

做饭通常都要包括“买菜~洗菜~配菜~炒菜”这几个必须环节,无论你是开饭店还是家里一日三餐,做饭的规模大小会有不同,但流程却是一样的。而这几个环节其实正好对应了数据人的日常工作内容:买菜(数据采集)~洗菜(数据清洗)~配菜(数据建模)~炒菜(数据加工)

1、买菜(数据采集)

买菜,出门首先要考虑去哪里买,到地之后溜达溜达看看买什么食材,看中一个之后讨价、还价、交钱,肉、蛋、青菜,各种要买的食材都得按这个流程来一遍,买齐之后就走人回家了。

对于数据人来说,我们把这个买菜的过程叫做数据采集。 菜市场就是我们通常所说的数据源。 买菜的选择很多:超市(种类较少,质量上乘),农贸市场(种类较多,菜品一般),露天早市(啥都可能有,运气好还能吃到野味)

数据源其实也一样,数据库(超市)中存储了结构化的业务数据、交易数据,传感器(农贸市场)产生大量半结构化日志数据、机器数据,网络上(早市)

充斥着各种参差不齐的非结构化数据。

到了菜市场我们得选菜,所有的食材我都想吃,但钱永远是不够的,所以我只能有选择性的买,这个过程叫数据调研,哪些数据是有用的,哪些数据用得起,得有个筛选。 溜达了一圈,确定要买猪肉、鸡蛋和黄瓜,得跟卖家挑肥拣瘦、讨价还价、敲定斤两,这个过程叫数据接口规范。 费劲口舌,劳心劳力把菜买齐之后提菜回家,这个过程叫数据传输。 根据买菜方式、习惯的的不一样,数据采集还可以细分出很多类型:

  • 肉类保质期长,一次买一周的量,可以叫全量采集。
  • 青菜讲究新鲜,每次只买当天的菜,可以叫增量采集。
  • 每天早上都得去买菜的,可以叫批量采集。
  • 卖家每次上了新菜都主动给你往家送的(土豪专用),可以叫流式采集。

2、洗菜(数据清洗)

洗菜就很好理解了,无论哪里来的食材,都多少存在卫生或者质量问题,买回来后都得洗干净、摘清楚才能吃,不然小则影响口感,大则损害健康。

数据也是一样,拿回来之后得检查一下,数据内容有没有缺斤少两,数据值里有没有烂菜叶,不然后面的报表、分析出来的结果就全是错误结论了,我们把这个检查、纠正数据本身错误的过程叫做数据清洗

由于数字世界里各种数据源的多样性、复杂度远远高于现实生活里的菜市场,数据清洗流程需要面对和处理的问题也就远远多于洗菜,为了解决和防范数据产生、使用过程中出现的各方面问题,数据领域细分出了一个专门的研究方向叫数据治理,比如:

  • 为了了解各个菜市场的情况,我们需要记录每个菜市场、每个卖家的猪肉、鸡蛋、黄瓜等各种食材的大小、颜色、价格等特