导航
  • 报考
  • 备考
  • 政策

报考

备考

复习资料

政策

行业动态

有哪些数据分析平台架构?这些对于大数据工程师竟如此重要

环球网校·2020-07-10 13:42:12浏览21 收藏4

请输入下面的图形验证码

提交验证

预约成功

我知道了
摘要 大数据时代与我们日常生活的联系从未像今天这样紧密,从未像今天这样活跃,具体记录着人类和世界,但隐患也令人担忧,有哪些数据分析平台架构?这些对于大数据工程师竟如此重要,现在就思考一下有哪些数据分析平台架构?这些对于大数据工程师竟如此重要。

1、有哪些数据分析平台架构——根据数据分析的实时性

分为实时数据分析和离线数据分析

传统的实时数据分析可以通过设计良好的RDBMS集群来完成,比如EMC的GreenPlum和SAP HANA

但是对于在几秒钟内返回数亿行数据的分析来说,是时候引入新的实时流媒体技术了,比如Storm和Spark。

考虑到他写作的时间,他没有想到生态会发展得这么快。

离线大数据分析仍然是Hadoop的强项。

传统的ETL由于需要进行大量的数据转换,导致开销过大。因此,采用Kafka、Chukwa、Timetunnel等工具,实现每秒数百MB的数据采集操作,并将数据上传到Hadoop的分布式存储中。

调用MapReduce来处理。

同样,Spark现在可以说是被取代了

2、有哪些数据分析平台架构——根据大数据的数据量

分为内存级,BI级,质量级

内存级别是分布式内存计算。总数不超过集群中的内存总数。

它可以是各种各样的NoSQL, MongoDB, Redis, Memcached集群应用

它还可以是Spark集群的并行计算。

BI级别与传统数据仓库的数量相同,但显然比只存储在内存中的NoSQL场景大得多。但是这个类型应该放在传统的BI中,作者应该放在这里只是为了比较

质量级别是指传统BI无法处理的数据量。一般BI数据仓库,TB级别甚至非常大。但在互联网企业中,“海量”可能意味着PB,即1024个BI数据仓库的规模。因此,传统的BI工具如SSIS、Informatic、Data Stage、BO等ETL报表工具无法完成计算和存储。这就是hadooop的HDFS的用武之地。分布式存储意味着增加的机器可以线性伸缩。(页面)

3、有哪些数据分析平台架构——根据数据分析的算法复杂度

简单的排序分析,数据总量不大于内存,使用Redis可以轻松完成

大规模的人脸识别,图形渲染,自然是通过并行处理集群来完成的

流量统计、推荐引擎、趋势分析、用户行为分析、分布式索引等统计分析、机器学习等问题

可以使用MapReduce算法进行重写。

还有一种类型的大数据OLAP分析使用NoSQL, RDBMS不是一种处理能力,

即使使用Hive也只能解决数据大小的问题,而不能解决灵活的维数分析问题

所以你仍然需要使用Hadoop MapReduce来开发这个程序

但在这里,火花可以帮助缓解疼痛。作者在2011年写了这篇文章。

另一方面,Spark诞生于2009年,但在2012年湾区推出后才为人所知。

所以MapReduce不再是大数据OLAP的唯一选项

更不用说,后来出现了Apache Kylin, Kyvos, AtScale等等

在谷歌上输入大数据OLAP工具(百度上没有搜索),会出现一堆

有哪些数据分析平台架构?这些对于大数据工程师竟如此重要,大数据时代与我们日常生活的联系从未像今天这样紧密,从未像今天这样活跃,具体记录着人类和世界,但隐患也令人担忧,比如信息安全,你能处理好吗?如果您还担心自己入门不顺利,那么下方的资料下载链接一定会帮助你。

展开剩余
资料下载
历年真题
精选课程
老师直播

注册电脑版

版权所有©环球网校All Rights Reserved