Loading
0

Cloudera|传统数据库向大数据的渐进式转型

慧都智能制造解决方案

数据仓库系统长期以来一直是企业 IT 架构的重要组成部分。随着开源技术的不断发展以及云端部署方式的不断深入,传统数据仓库的局限性日益凸显,难以适应新技术带来的市场变革,如何面向大数据技术进行数据仓库的优化、转型是企业 IT 管理者面临的重要挑战。处于不同阶段的企业如何应用大数据技术?如何面向大数据技术进行数据仓库转型?如何对现有数据仓库进行优化?如何在 Hadoop 中进行性能优化?这些已成为困扰 IT 管理者的主要问题。

现有的数仓环境

传统数仓面临以下局限性

1.存储成本较高,在线保留全量、海量数据的目标难以实现;

2.元数据定义僵化,难以灵活集成多种数据源、支持即席查询;

3.集群管理复杂、计算资源有限,缺乏统一的管理接口及水平扩展能力;

4.随着数据规模、用户规模的不断增加,实时分析(例如:欺诈行为识别)SLA无法满足;

5.常用的数据分析挖掘工具处理全量数据时间过长。


数据仓库呈现三大发展趋势

数据仓库呈现三大发展趋势
要提供更加广泛的数据访问

数据仓库的访问不再只限于IT部门,所有部门的用户都会要求自助访问全真的数据,甚至希望无需 IT 部门的协助便可以自行进行数据准备,当然,这个过程中的高访问延迟也是不被接受的。

处理更多类型的全量数据

企业必须能够有效地存储、加工和分析数据,包括结构化数据、半结构化数据和非结构数据。

采取更加实时的业务决策

流式数据为理解和调整当前的业务决策创造了新的可能,但前提是我们要具备对流式数据进行实时处理的能力。实时计算需要新的技术架构,不仅要将数据流与现有数据体系进行对接,还要能够对其进行快速的分析。

 


技术选择

企业应根据所处的不同阶段进行技术选择:

起始阶段:处于这一阶段的大多数企业已采购 MPP 硬件搭建数据仓库。为了保证业务延续性,对于起始阶段的企业建议以传统技术为主,以大数据技术为辅。例如:ETL 处理仍然放在 MPP 平台,只是利用 HDFS 做历史数据归档,利用 Spark Streaming 做小批量数据的实时处理。

发展阶段:这一阶段的企业用户已经掌握了大数据的核心技能,发展阶段建议以大数据技术为主,以传统技术为辅。例如:将 ETL 处理全部转移到 Hadoop 平台,而只将处理逻辑简单的固定报表部分放在 MPP 上。

成熟阶段:建议使用 Hadoop 平台作为整体架构,将大数据技术应用到极致。

数据仓库技术选择

将数据仓库规划在 Hadoop之上

企业可以选择从一开始就将整个数据仓库规划在 Hadoop 之上。传统数据仓库架构的主要创始人 Ralph Kimball 博士在 2015 年发表专题演讲时证实了 Hadoop 是可以完全取代 MPP 来建立数据仓库的。在全球范围内,有很多企业已经将他们的数据仓库完全建立在 Hadoop 之上。

但是从技术的角度,有一些数据仓库技术或工具与 Hadoop 相比已非常成熟,可能已有数十年的历史,对于这些长期应用的数据库技术,Hadoop 并不具备其中所有的功能或性能。但即便如此,很多用户仍然选择把他们的数据仓库构建在 Hadoop 架构之上,这是为了能够实现更加优越的可扩展性、更高的性价比,以及更好的灵活性。在实际应用中,即使是规模只有 5 个节点的小集群,企业使用 Hadoop 与其他技术选项相比,也能够取得更好的产出、带来更多的业务价值与竞争力。


Cloudera 分析型数据库全面升级

针对当前企业级数据仓库(EDW)面临的 ETL 批量作业运行缓慢、BI 报表不能按时生成、业务用户提交的查询迟迟显示不了结果等压力,结合当前数仓发展的趋势,以及企业的云化需求,Cloudera 分析型数据库版本进行了全面升级,于 2018 年 8 月正式推出了Cloudera Data Warehouse又名Cloudera 数据仓库版本

Cloudera 分析型数据库已经在全球最大的 900 多家组织机构里运行,是一款经历过实战打磨的产品。升级后的 Cloudera 数据仓库版本提供了企业级混合云解决方案,包含了混合计算、混合存储、混合控制三大关键因素,专为实惠经济、强大可扩展的自助服务分析而构建。这款产品覆盖了数据仓库的整个生命周期,包括数据接入、存储、管理、查询、运行状况检查等等。


Cloudera 数据仓库版本适用于以下三场景

ETL 卸载:将 ETL 任务从 EDW 迁移到 Cloudera 大数据平台,极大的释放 EDW 处理能力。基于 Hadoop 大规模分布式的处理能力,ETL 任务将以更快的速度运行,并为包括 EDW 在内的下游系统提供服务,使得之前错过的 SLA 成为历史。

自助 BI 和探索性分析:全面开放数据,所有部门的用户在其安全策略范围内都能自助访问全真数据。借助 Read on Schema 的灵活性和支持高并发的查询能力,开发人员和分析人员能够实现自助化数据探索,摆脱对 IT 部门的依赖,能最快的速度解决新问题。

EDW 优化:通过 Cloudera 大数据平台释放 EDW 处理能力,您可以将 EDW 系统用于更加复杂的报表生成和热数据处理,在相当长的一段时间内都无需增加 EDW 存储或计算资源。EDW 和 Cloudera 大数据平台的混搭结构可以降低数据存储成本,提高数据处理和分析能力,充分发挥两套系统各自的技术优势。


Cloudera 数据仓库版本的四大优势

前所未有的数据规模和灵活性:Cloudera 提供单一、可扩展的平台,可以处理不同来源、不同类型的全量数据,以推动新的业务洞察。该版本专为 Read on Schema 功能而设计,可以快速访问贴源的全真数据,甚至支持实时更新。

高性能和高并发支持:Cloudera 的平台提供高性能的 SQL 查询工具,支持大数据量高并发访问,因此所有部门的用户都可以对数据进行探索性分析。而且,通过与第三方 BI 工具集成,可以沿用业务用户的既有技能。

内置安全管控和数据治理模块:开放的数据永远不会以牺牲安全为代价,因此敏感数据的安全至关重要。 Cloudera 是唯一一个通过 PCI 安全认证的 Hadoop 平台,内置安全管控和数据治理模块。无论用户采取何种方式访问数据,只要利用 Cloudera 安全技术对用户预设置权限,或者对数据预设置监管策略,您都可以继续数据探索之旅,而不用担心数据泄密或越权访问。

采用开源技术,可在任何环境中移植:无论是本地部署,云端还是混合部署都完全适用,避免了技术锁定的问题。