本文章是CDP中Cloudera的Operational DB(OpDB)系列文章的一部分。每篇文章都会详细介绍新功能。从本系列的开头以CDP中的Operational Database开始。
Cloudera的OpDB提供了一组丰富的功能来存储和访问数据。在本文章中,我们将研究OpDB的可访问性功能,以及如何利用这些功能来访问数据。
分配和分片
Cloudera的Operational DB(OpDB)是横向扩展的数据库管理系统(DBMS),旨在线性扩展至PB级数据。 像所有DBMS一样,横向扩展是通过分片实现的。支持两种不同的分片策略:
- 自动分片
- 预定义分片
无论采用哪种方法,都有一些API可以基于散列,值的范围以及两者的组合来启用分片。
自动分片
启用自动分片后,表将在整个集群中动态分布,并且当分片大小超过可配置的限制时,表将自动拆分并在集群中的服务器之间移动。一个表段在中间键处分为两部分,创建了两个大致相等的一半,这两个一半可以由不同的服务器提供服务。
无论与OpDB一起使用的网络(WAN或本地)如何,都将应用自动分片。 可以将群集设置为跨越WAN,在这种情况下,将在WAN上进行分片和数据移动,而数据丢失为零。可以将系统配置为了解哪个节点位于哪个数据中心,这可以为分片提供额外的弹性,因为分片的副本可以分布在多个数据中心中。
预定义分片
可以基于策略,通常以租户特定的方式,将碎片限制为群集中节点的特定子集。 这样就可以实施基于地理的策略。 然后,可以在群集之间复制表并通过策略进行设置,以确保将表及其关联分片的复制限制在所需的地理位置。
Cloudera的OpDB为数据主权提供本地支持。如果群集跨越多个国家/地区,则可以使用区域服务器组将数据与HDFS Rack隔离配置一起锚定特定国家/地区中的数据。
查询
Cloudera提供了三个查询引擎,这些查询引擎针对不同类型的用例进行了优化,包括操作和分析用例以及NoSQL接口,以在各种操作和数据仓库工作负载中实现优化的性能。 这样可以跨多个分片执行查询和数据联接。
Cloudera的OpDB提供了本机OLTP SQL引擎,该引擎支持查询多个数据和对象模型,包括查询和跨它们的联接。 我们的两个OLAP查询引擎可用于映射驻留在我们的OpDB(或其他位置)中的外部表,并可在它们之间查询或联接以进行典型的数据仓库更复杂的分析查询。
数据整合工具
Cloudera提供了多种工具来实现与数据仓库和联合查询处理的集成。
例如:
- 由Flink,Spark,Hive和MapReduce提供批量导出到数据仓库的功能
- Nifi将流导出导出到数据仓库
- Phoenix,Impala和Hive提供了我们OpDB中的现场数据查询
- Hive提供了跨我们的OpDB,数据仓库解决方案和第三方数据仓库解决方案的联合查询处理
外部数据支持
Cloudera的OpDB包含许多Hadoop工具,并与大多数Hadoop生态系统集成。OpDB提供NoSQL和SQL接口。此接口没有任何限制,并且在Hadoop社区中得到很好的支持。
移动OpDB
MiNiFi可以在边缘的便携式设备上使用,并提供与OpDB的数据连接。查询编辑器HUE可以在移动或便携式设备上运行。
基于标准的连接
除了直接对我们的数据存储区和工具进行API访问之外,Cloudera还提供了通过SQL引擎提供的JDBC和ODBC驱动程序。
关于Cloudera
在 Cloudera,我们相信数据可以使今天的不可能,在明天成为可能。我们使人们能够将复杂的数据转换为清晰而可行的洞察力。Cloudera 为任何地方的任何数据从边缘到人工智能提供企业数据云平台服务。在开源社区不懈创新的支持下, Cloudera推动了全球最大型企业的数字化转型历程。了解更多,请联系在线客服。
慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。
欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!
发表评论