预约成功
1、有哪些数据分析平台架构——根据数据分析的实时性
分为实时数据分析和离线数据分析
传统的实时数据分析可以通过设计良好的RDBMS集群来完成,比如EMC的GreenPlum和SAP HANA
但是对于在几秒钟内返回数亿行数据的分析来说,是时候引入新的实时流媒体技术了,比如Storm和Spark。
考虑到他写作的时间,他没有想到生态会发展得这么快。
离线大数据分析仍然是Hadoop的强项。
传统的ETL由于需要进行大量的数据转换,导致开销过大。因此,采用Kafka、Chukwa、Timetunnel等工具,实现每秒数百MB的数据采集操作,并将数据上传到Hadoop的分布式存储中。
调用MapReduce来处理。
同样,Spark现在可以说是被取代了
2、有哪些数据分析平台架构——根据大数据的数据量
分为内存级,BI级,质量级
内存级别是分布式内存计算。总数不超过集群中的内存总数。
它可以是各种各样的NoSQL, MongoDB, Redis, Memcached集群应用
它还可以是Spark集群的并行计算。
BI级别与传统数据仓库的数量相同,但显然比只存储在内存中的NoSQL场景大得多。但是这个类型应该放在传统的BI中,作者应该放在这里只是为了比较
质量级别是指传统BI无法处理的数据量。一般BI数据仓库,TB级别甚至非常大。但在互联网企业中,“海量”可能意味着PB,即1024个BI数据仓库的规模。因此,传统的BI工具如SSIS、Informatic、Data Stage、BO等ETL报表工具无法完成计算和存储。这就是hadooop的HDFS的用武之地。分布式存储意味着增加的机器可以线性伸缩。(页面)
3、有哪些数据分析平台架构——根据数据分析的算法复杂度
简单的排序分析,数据总量不大于内存,使用Redis可以轻松完成
大规模的人脸识别,图形渲染,自然是通过并行处理集群来完成的
流量统计、推荐引擎、趋势分析、用户行为分析、分布式索引等统计分析、机器学习等问题
可以使用MapReduce算法进行重写。
还有一种类型的大数据OLAP分析使用NoSQL, RDBMS不是一种处理能力,
即使使用Hive也只能解决数据大小的问题,而不能解决灵活的维数分析问题
所以你仍然需要使用Hadoop MapReduce来开发这个程序
但在这里,火花可以帮助缓解疼痛。作者在2011年写了这篇文章。
另一方面,Spark诞生于2009年,但在2012年湾区推出后才为人所知。
所以MapReduce不再是大数据OLAP的唯一选项
更不用说,后来出现了Apache Kylin, Kyvos, AtScale等等
在谷歌上输入大数据OLAP工具(百度上没有搜索),会出现一堆
有哪些数据分析平台架构?这些对于大数据工程师竟如此重要,大数据时代与我们日常生活的联系从未像今天这样紧密,从未像今天这样活跃,具体记录着人类和世界,但隐患也令人担忧,比如信息安全,你能处理好吗?如果您还担心自己入门不顺利,那么下方的资料下载链接一定会帮助你。