Loading
0

DataForce组件技术及功能(四):Hadoop数仓系统和全文搜索功能

DataForce是慧都自主研发、应用最灵活的大数据平台。能够帮助您随时找到您想要的数据,使数据得到安全、稳定和高效的管理与应用。DataForce是企业大数据解决方案的重要组成部分,除了提供完整的大数据功能组件,我们还提供组件自定义搭配,为企业选择满足方案需要的大数据功能组件,使您的大数据解决方案成本降到最低,从而高品质的解决您的大数据需求问题。

了解什么是DataForce,请点击这里查看DataForce的基础介绍>>

本文主要跟大家介绍DataForceHadoop数仓系统和全文搜索系统。

Hadoop数仓系统

Hadoop数仓系统将结构化的数据文件映射为一张数据库表,并提供SQL交互的功能。数据仓库系统本身不存储和计算数据,它完全依赖分布式文件管理系统和分布式计算工具。它的数据模型和关系数据库类似,是结构化的表,且列的数量有限。但不同的是,它在支持行存储的同时,也支持列存储格式的表。它在处理大规模、大批量数据时性能优于传统数据库以及数据仓库组件,但是牺牲了小批量数据的低时延查询能力。最后,数据仓库系统支持多种接口,支持集成大数据平台的其他系统,同时提供WEB SERVICE等接口供其他系统集成。

DataForce - Hadoop数仓系统的特性

Hadoop数仓系统具有如下特性:

  • 本身不支持数据存储和运算,完全依赖分布式文件管理系统和分布式计算工具。
  • 数据模型和关系数据库类似,为结构化的表;列的数量有限。
  • 同时支持行存储与列存储,但数据处理逻辑是基于行的模式。
  • 有限支持Update以及Delete操作(部分表类型支持,但计算时延高开销大)。
  • 不能保证处理的低迟延问题,适用于离线的批量数据计算。
  • 支持多种访问方式,包括命令行、JAVA API、RESTFUL API、WEB SERVICE等。

DataForce - Hadoop数仓系统的应用案例

Hadoop数仓规模

30人的数据资源中心团队,定期发布更新数据;进行数据使用培训;监控前端应用,如找出并解决过度消耗资源的查询;指导各层应用对DW的数据使用。

3000个活跃用户,包括ETL、应用、业务信息工具、SAS和许多通过其他DBMS实现的连接。

每月查询次数在1~1.4亿之间。数据访问工具包括SAS、Qlik、ORACLE、分布式计算组件、全文搜索系统、数据仓库分析平台等。

元数据管理

IT和业务部门均设有元数据专家。数据模型的更新通过变革流程通知到数据仓库,详细到数据要素。数据仓库通过主数据和客户数据达到数据整合,保证数据的一致性。

元数据管理可以真正发挥数据仓库窗口的作用,能够为业务人员及应用开发人员提供如下信息:数据仓库中有什么数据,这些数据从哪里来,到何处去,加工逻辑是什么。

元数据管理没有针对性的权限控制,因为元数据信息对企业中每个人都有价值,合法的局域网用户均可访问。

数据质量

关于数据质量的基本原则:业务部门是数据的拥有者,因此他们应当对数据质量负责。技术人员配合业务人员维护数据质量,数据仓库只接收数据,不修改数据。

数据质量是数据仓库中非常重要的一个环节,有一个集中的团队负责对数据质量的监控,同时每个业务部门和IT部门都设有数据管理员,他们会定期对数据质量进行检查。他们重点监控关键的数据元素,首要任务是解决数据缺失和数据异常的问题。

每个业务部门在年初的计划中会设定数据质量目标,年终会考核相关人员的数据质量目标完成情况。

全文搜索系统

全文搜索引擎是一个基于Apache Lucene(TM)的实时分布式搜索和分析引擎。它使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能。它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。

不过,全文搜索引擎不仅仅是全文搜索,我们还能这样去描述它:

  • 分布式的实时文件存储,每个字段都被索引并可被搜索
  • 分布式的实时分析搜索引擎
  • 可以扩展到上百台服务器,处理PB级结构化或非结构化数据

慧都工业大数据分析方案即将精益生产理论体系进行了完美的融合和应用,并对大数据总体架构进行了更细致明确的解读,提供自主研发的大数据平台,实现ETL、数据管理及存储、数据建模。如下图所示:

立即申请慧都大数据demo


关于慧都大数据分析平台

慧都大数据分析平台「GetInsight®」升级发布,将基于企业管理驾驶舱产品质量分析及预测设备分析及预测等大数据模型的构建,助力企业由传统运营模式向数字化、智能化的新模式转型升级,抓住数据经济的发展势头,提供管理效能,精准布局未来。了解更多,请联系在线客服

慧都大数据专业团队为企业提供商业智能大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!