导航
  • 报考
  • 备考
  • 政策

报考

备考

复习资料

政策

行业动态

uber大数据分析平台的特点是什么?这是大数据工程师一直关注的内容

环球网校·2020-05-14 11:12:57浏览27 收藏8

请输入下面的图形验证码

提交验证

预约成功

我知道了
摘要 资深的大数据工程师都知道uber,这是一个大数据平台,那么uber大数据分析平台的特点是什么?这是大数据工程师一直关注的内容,之所以一直在关注,就是因为uber在行业内很出名,所以我们必须了解uber大数据分析平台的特点是什么?这是大数据工程师一直关注的内容。

自2017年推出第三代大数据平台以来,整个公司的用户可以快速可靠地访问 Hadoop 中的数据,但是这个平台还是有很大的跟进空间。 下面总结了我们增强 Uber 的大数据平台的努力,以提高数据质量,数据延迟,效率,可扩展性和可靠性。

1、uber大数据分析平台的特点是什么——数据质量

为了加强数据质量,我们确定了两个改进方向。首先,当某些上游数据存储在存储之前没有强制执行或检查数据模式时,我们希望避免非符合模式的数据。因为这个会导致不规范的数据进入我们的 Hadoop 生态系统,从而影响所有依赖此数据的下游用户。为了防止脏数据流入,我们正在对所有上游数据存储的数据模式进行强制检查,并在数据存在任何问题时拒绝这些数据的写入。

我们发现的第二个改进点是数据内容的质量。 虽然使用模式检查能够确保数据包含正确的数据类型,但它们不检查实际数据值。 为了提高数据质量,我们正在扩展架构服务以支持语义检查。 这些语义检查允许我们在基本结构类型检查之外添加对实际数据内容的额外约束。

2、uber大数据分析平台的特点是什么——数据延迟

我们的目标是将 Hadoop 中的原始数据延迟减少到五分钟,将建模表的数据延迟减少到十分钟。这将允许更多用例从流处理转向使用 Hudi 增量数据拉取的更有效的小批量处理。

我们还在扩展我们的 Hudi 项目以支持视图模式,其中包括现有的读取优化视图,以及显示延迟仅几分钟的数据实时视图。 这个实时视图依赖于 Merge-On-Read 或 Hudi 2.0。

3、uber大数据分析平台的特点是什么——数据效率

为了提高数据效率,我们打算不再依赖专用硬件来实现任何服务和服务容器化。此外,我们统一了 Hadoop 生态系统内部和跨 Hadoop 生态系统的所有资源调度程序,以弥合整个公司的 Hadoop 和非数据服务之间的差距。 这允许所有作业和服务以统一的方式进行调度。随着 Uber 的发展,数据位置将成为 Hadoop 应用程序的一大关注点,成功的统一资源管理器可以将所有现有的调度程序集中在一起。

4、uber大数据分析平台的特点是什么——扩展性和可靠性

为了确保无论数据从哪里来的都能统一进行数据摄取,我们与 Uber 数据存储团队合作启动了一个项目,以统一所有上游数据源的更改日志的内容,格式和元数据。

以上就是对于《uber大数据分析平台的特点是什么?这是大数据工程师一直关注的内容》的详细分析,我们可以从这些分析中看到大数据近几年发展的速度很快,以及企业大数据的发展。如果你想知道更多大数据的相关知识,可以点击下方资料下载链接。

展开剩余
资料下载
历年真题
精选课程
老师直播

注册电脑版

版权所有©环球网校All Rights Reserved