预约成功

让我们抱怨吧。大数据公司必须建立数据仓库。而且,无论是传统行业还是互联网企业,都需要关注数据仓库,而不是说自己在搞大数据。数据仓库更能代表一种管理和使用数据的方式。它是一个完整的理论体系,包括ETL、调度和建模。现在所谓大数据更多的是数据量的增加和工具的更新。相反,两者之间没有冲突,而是更好的结合。
从理论上讲,数据仓库可以分为三层:数据操作层、数据仓库层和数据产品层。
1、大数据仓库的分类有哪些——ODS的全称是操作数据存储
最接近数据源的操作层,也称为“数据源层”。数据源中的数据被提取、清理和传输,也就是说,在传奇的ETL加载到这个层之后。一般来说,这一层的大部分数据都是按照源业务系统的分类方法进行分类的。
例如,该层可能包含的数据表有:人口表(包括每个人的身份证号码、姓名、地址等)、机场登机记录(包括身份证号码、航班号、登机日期、出发城市等)、银联卡信息表(包括银行卡号、卡位、刷卡时间、,卡金额等)、银行账户表(包括银行卡号等一系列原始业务数据。在这里我们可以看到,这个层次的数据也具有明显的业务数据库特征,甚至在关系数据库中有一定的数据范式组织形式。
但是,这个级别的数据并不等于原始数据。当源数据加载到该层时,如去噪(如删除明显偏离正常水平的银行卡信息)、重复数据消除(如银行账户信息、公安局人口信息均包含一个人的姓名,但只能保留一份),以及清理(例如,如果有人的银行卡被盗,10分钟内中国和日本同时有两次刷卡)信息,这是脏数据)、业务提取、单位统一、字段切分(如用于支持前端系统工作但数据挖掘中不需要的字段)、业务歧视等。
2、大数据仓库的分类有哪些——数据仓库层是数据仓库的主体
在这里,从ODS层获得的数据根据主题建立各种数据模型。例如,以研究人们旅游消费为主题的数据集,可以与航空公司的登机旅游信息和银联系统的刷卡记录相结合,生成数据集。这里,我们需要理解四个概念:维度、事实、索引和粒度。
3、大数据仓库的分类有哪些——数据产品层(APP),为数据产品提供结果数据
在这里,数据主要用于数据产品和数据分析。一般存储在ES、MySQL等系统中,供在线系统使用。它也可能存在于hive或Druid中,用于数据分析和数据挖掘。比如我们常说的报表数据,或者那种大而宽的表,一般都放在这里。
以上就是《大数据仓库的分类有哪些?原来这才是大数据工程师关注的现状》的全部内容,从文字中我们可以看到,大数据公司必须建立数据仓库。而且,无论是传统行业还是互联网企业,都需要关注数据仓库,而不是说自己在搞大数据,如果你想抓住这些机遇,小编建议大家点击下方资料下载链接。