有哪些数据分析平台架构？这些对于大数据工程师竟如此重要

环球网校·2020-07-10 13:42:12浏览收藏

地区
选择考试省份
获取验证码

请输入下面的图形验证码

提交验证

预约成功

我知道了

摘要大数据时代与我们日常生活的联系从未像今天这样紧密，从未像今天这样活跃，具体记录着人类和世界，但隐患也令人担忧，有哪些数据分析平台架构？这些对于大数据工程师竟如此重要，现在就思考一下有哪些数据分析平台架构？这些对于大数据工程师竟如此重要。

1、有哪些数据分析平台架构——根据数据分析的实时性

分为实时数据分析和离线数据分析

传统的实时数据分析可以通过设计良好的RDBMS集群来完成，比如EMC的GreenPlum和SAP HANA

但是对于在几秒钟内返回数亿行数据的分析来说，是时候引入新的实时流媒体技术了，比如Storm和Spark。

考虑到他写作的时间，他没有想到生态会发展得这么快。

离线大数据分析仍然是Hadoop的强项。

传统的ETL由于需要进行大量的数据转换，导致开销过大。因此，采用Kafka、Chukwa、Timetunnel等工具，实现每秒数百MB的数据采集操作，并将数据上传到Hadoop的分布式存储中。

调用MapReduce来处理。

同样，Spark现在可以说是被取代了

2、有哪些数据分析平台架构——根据大数据的数据量

分为内存级，BI级，质量级

内存级别是分布式内存计算。总数不超过集群中的内存总数。

它可以是各种各样的NoSQL, MongoDB, Redis, Memcached集群应用

它还可以是Spark集群的并行计算。

BI级别与传统数据仓库的数量相同，但显然比只存储在内存中的NoSQL场景大得多。但是这个类型应该放在传统的BI中，作者应该放在这里只是为了比较

质量级别是指传统BI无法处理的数据量。一般BI数据仓库，TB级别甚至非常大。但在互联网企业中，“海量”可能意味着PB，即1024个BI数据仓库的规模。因此，传统的BI工具如SSIS、Informatic、Data Stage、BO等ETL报表工具无法完成计算和存储。这就是hadooop的HDFS的用武之地。分布式存储意味着增加的机器可以线性伸缩。(页面)

3、有哪些数据分析平台架构——根据数据分析的算法复杂度

简单的排序分析，数据总量不大于内存，使用Redis可以轻松完成

大规模的人脸识别，图形渲染，自然是通过并行处理集群来完成的

流量统计、推荐引擎、趋势分析、用户行为分析、分布式索引等统计分析、机器学习等问题

可以使用MapReduce算法进行重写。

还有一种类型的大数据OLAP分析使用NoSQL, RDBMS不是一种处理能力，

即使使用Hive也只能解决数据大小的问题，而不能解决灵活的维数分析问题

所以你仍然需要使用Hadoop MapReduce来开发这个程序

但在这里，火花可以帮助缓解疼痛。作者在2011年写了这篇文章。

另一方面，Spark诞生于2009年，但在2012年湾区推出后才为人所知。

所以MapReduce不再是大数据OLAP的唯一选项

更不用说，后来出现了Apache Kylin, Kyvos, AtScale等等

在谷歌上输入大数据OLAP工具(百度上没有搜索)，会出现一堆

有哪些数据分析平台架构？这些对于大数据工程师竟如此重要，大数据时代与我们日常生活的联系从未像今天这样紧密，从未像今天这样活跃，具体记录着人类和世界，但隐患也令人担忧，比如信息安全，你能处理好吗?如果您还担心自己入门不顺利，那么下方的资料下载链接一定会帮助你。

展开剩余

资料下载

历年真题

精选课程

老师直播

更多资料 >

更多试题 >

报考

备考

政策

有哪些数据分析平台架构？这些对于大数据工程师竟如此重要

最新推荐