Loading
0

GetInsight组件技术及功能(三):分布式NoSQL数据库和文件管理系统

GetInsight是慧都自主研发、应用最灵活的大数据平台。能够帮助您随时找到您想要的数据,使数据得到安全、稳定和高效的管理与应用。GetInsight是企业大数据解决方案的重要组成部分,除了提供完整的大数据功能组件,我们还提供组件自定义搭配,为企业选择满足方案需要的大数据功能组件,使您的大数据解决方案成本降到最低,从而高品质的解决您的大数据需求问题。

了解什么是GetInsight,请点击这里查看GetInsight的基础介绍>>

本文主要跟大家介绍GetInsight的分布式NoSQL数据库和分布式文件管理系统。

分布式NoSQL数据库

分布式NoSQL数据库是一个分布式的、面向列的非关系型数据库。它弥补了数据仓库系统的不足,提供近实时的响应速度,支持实时查询。它对表的管理是面向列的,支持列独立检索,适合海量数据的随机访问。它的表每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列,并且其中空列(null)并不占用存储空间。它自动生成时间戳,每个单元中的数据可以有多个版本,默认情况下版本号是单元格插入时的时间戳。最后,与其他非关系型数据库不同的是,它提供一个中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问它。

GetInsight分布式NoSQL数据库的特性

分布式数据库具有如下特性:

 • 每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列。
 • 空列(null)并不占用存储空间,表可以设计的非常稀疏。
 • 面向列(族)的存储和权限控制,列(族)独立检索,适合海量数据的随机访问。
 • 每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳。
 • 数据类型只有字符串,没有其他类型。
 • 支持Update以及Delete操作。
 • 近实时的响应速度,支持实时查询。
 • 自动生成时间戳。

GetInsight分布式NoSQL数据库的应用场景 爬虫后端数据库

搜索是一个定位用户所关心的信息的行为:例如,搜索一本书的页码,其中含有用户想读的主题;或者网页,其中含有用户想找的信息。搜索含有特定词语的文档,需要查找索引,该索引提供了特定词语和包含该词语的所有文档的映射。为了能够搜索,首先必须建立索引。Google和其他搜索引擎正是这么做的。他们的文档库是整个互联网;搜索的特定词语就是搜索框里敲入的任何东西。

分布式数据库,为这种文档库提供存储,它提供行级访问,所以爬虫可以插入和更新单个文档。搜索索引可以通过MapReduce计算高效生成。如果结果是单个文档,可以直接从数据库取出。

总体来说,数据流程分为下面几个步骤:

 1. 爬虫持续不断地抓取新页面,这些页面每页一行地存储到数据库里。
 2. 数据库根据主键自动生成索引,为网络搜索应用做准备。
 3. 用户发起网络搜索请求。
 4. 网络搜索应用查询建立好的索引,或者直接从数据库直接得到信息。
 5. 搜索结果提交给用户。

分布式文件管理系统

分布式文件管理系统,主要用于存储和管理文件。它能存存储大容量数据集,且集成硬盘能提供更快的硬盘读取时间。它的构建思路是:一次写入,多次读取;更多用于批量处理,重点是数据访问的高吞吐量,且不需要配置昂贵可靠的高端硬件产品。它提供了高可靠性的HA模式,在任意节点失效时提供完美的监控机制以及完整的备份恢复机制,即当部分节点故障时,它能在不被用户察觉的情况下正常运行。


慧都工业大数据分析方案即将精益生产理论体系进行了完美的融合和应用,并对大数据总体架构进行了更细致明确的解读,提供自主研发的大数据平台,实现ETL、数据管理及存储、数据建模。如下图所示:

立即申请慧都大数据demo


关于慧都大数据分析平台

慧都大数据分析平台「GetInsight®」升级发布,将基于企业管理驾驶舱产品质量分析及预测设备分析及预测等大数据模型的构建,助力企业由传统运营模式向数字化、智能化的新模式转型升级,抓住数据经济的发展势头,提供管理效能,精准布局未来。了解更多,请联系在线客服

慧都大数据专业团队为企业提供商业智能大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!