Loading
0

GetInsight组件技术及功能(一):数据批量和实时同步

GetInsight是慧都自主研发、应用最灵活的大数据平台。能够帮助您随时找到您想要的数据,使数据得到安全、稳定和高效的管理与应用。GetInsight是企业大数据解决方案的重要组成部分,除了提供完整的大数据功能组件,我们还提供组件自定义搭配,为企业选择满足方案需要的大数据功能组件,使您的大数据解决方案成本降到最低,从而高品质的解决您的大数据需求问题。

了解什么是GetInsight,请点击这里查看GetInsight的基础介绍>>

本文主要跟大家介绍GetInsight的数据批量同步工具和数据实时同步工具。

数据批量同步工具

批量同步工具主要用于在大数据集群、数据仓库与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 :mySQL,Oracle等)中的数据导进到大数据存储系统中,也可以将集群上的数据导进到关系型数据库中。它可以高效、可控地利用资源,可以通过调整任务数来控制任务的并发度。另外它还可以配置数据库的访问时间等等。它可以自动的完成数据类型映射与转换。我们往往导入的数据是有类型的,它可以自动根据元数据模型来判断数据类型,把数据库中的类型转换到集群上或者数据仓库中对应类型,当然用户也可以自定义它们之间的映射关系。它支持多种数据库,比如,Mysql、Oracle和PostgreSQL等等数据库。对于某些NoSQL数据库它也提供了连接器。

GetInsight数据批量同步工具的特性

批量同步工具具有如下特性:

  1. 操作简单,有固定的写入命令模式。
  2. 它支持多种数据库,比如,Mysql、Oracle和PostgreSQL等等数据库。
  3. 支持文本文件、avro、SequenceFiles。
  4. 它可以高效、可控地利用资源,可以通过调整任务数来控制任务的并发度。另外它还可以配置数据库的访问时间等等。
  5. 它可以自动的完成数据类型映射与转换。我们往往导入的数据是有类型的,它可以自动根据数据库中的类型转换到分布式集群上的目标存储,当然用户也可以自定义它们之间的映射关系。
  6. 也可以根据增量字段值执行增量同步。
  7. 可以创建为一个作业,需要用到时调用执行。
  8. 可以通过脚本设置定时任务。
  9. 自身带有校验机制,保证数据完整性。
  10. 可以根据任务和硬件情况指定并行度。
  11. 可以指定的导入特定的列。
  12. 可以导入自定义的简单的sql语句查询结果,不支持复杂的语句。
  13. 可以从关系数据库导入到集群,也可以从集群导出到关系数据库。
  14. 支持增量的批量导入。

GetInsight数据批量同步工具的功能

  • 关系数据库的数据批量同步导入到大数据集群(分布式存储系统、分布式数据库、数据仓库等)。
  • 通过批量同步工具,可以从关系型数据库中导出数据,导入到分布式存储系统中。输入是数据库的一张表或者查询结果;输出则是数据库表或者结果的导出文件集合。导入进程是并行的,因此输出的结果可能是多个文件(最终在集群中可能会得到多个文件)。这些文件可能是标准的文本文件TextFile(比如,使用逗号做字段间的分割),也可能是Avro或者SequeenceFiles的记录文件。
  • 大数据集群(分布式存储系统、分布式数据库、数据仓库等)的数据批量同步导出到关系数据库。
  • 通过批量同步工具,还可以实现从大数据平台存储系统和分布式数据库系统以及数据仓库系统把数据导出到关系数据库中,如果是导出存储系统中的文件,则需要指明字段的分割符。

GetInsight数据批量同步工具的应用场景

在遇到需要进行大规模的复杂的数据分析或者其他情况需要把关系数据库中的数据拷贝或者移植到大数据的分布式平台上的时候,批量同步工具就非常适合实现大规模的从结构化数据库中数据批量导入到分布式文件系统或分布式数据库或者数据仓库中。做大规模数据分析以及数据处理等的前期数据转移,把单机上的数据批量快速的转移到分布式集群上。可以满足增量的同步导入,还可以创建一些执行计划,通过linux的定时调度机制定期的执行一些特定的导入操作,也可以使用任务调度工具进行批量同步任务的创建和统一管理。

也可以满足从大数据集群上把数据导出到结构化数据库中,比如一些集群上的数据处理结果,数据仓库的一些特定的表等,多数是在对分布式平台上或者数据仓库里面的数据分析之后产生的结果数据。需要导出到关系数据库中,然后提供前端展示。

所以,批量同步工具就是为了实现关系数据库(包括mysql,oracle等)与大数据平台(包括分布式存储系统和分布式数据库系统以及数据仓库系统等)之间的相互数据传递。

数据实时同步工具

实时数据采集工具是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务。实时数据采集工具具有高可用,分布式,配置化的能力,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到大数据平台(包括分布式存储系统、分布式数据库系统、数据仓库系统等)。它能够将不同数据源的海量日志数据进行高效收集、聚合、移动、最后存储到一个中心化数据存储系统中。实时数据采集工具是一个轻量级的小工具,适应各种方式的日志收集,并支持故障切换和负载均衡。

实时数据采集工具的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区,它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

GetInsight数据实时同步工具的特性

实时数据采集工具具有以下特性:

  1. 实时数据采集工具可以将应用产生的数据存储到任何集中存储器中,比如分布式文件系统,分布式数据库,数据仓库等。
  2. 当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,实时数据采集工具会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供一共平稳的数据。
  3. 实时数据采集工具的管道是基于事务,保证了数据在传送和接收时的一致性。
  4. 实时数据采集工具是可靠的,容错性高的,可升级的,易管理的,并且可定制的。
  5. 采用sql轮询方式,具有通用性,支持多种数据源。
  6. 实时性,实时数据采集工具还有一个特点就是可以实时的将分析数据并将数据保存在数据库或者其他系统中。
  7. 提供多种数据源接口,包括tcp,http,avro,文件,sql等等。
  8. 配置简单;快速部署;简化编程;具有通用性,适用于各种关系库数据源。
  9. 在源库查询,具有入侵性。
  10. 只能识别新数据,不能检测删除与更新。
  11. 要求源库必须有用于表示增量的字段。
  12. 通过轮询的方式实现增量,只能做到准实时,而且轮询间隔越短,对源库的影响越大。

GetInsight数据实时同步工具的功能

  • 监控日志信息,把采集到的日志信息保存到分布式存储环境或者存入数据库或者数据仓库。可以把目标端配置为分布式消息系统,结合使用消息中间件做缓冲,再通过流处理框架处理,写入到分布式文件系统或者是数据仓库或者是关系数据库等。
  • 通过JDBC连接关系数据库,通过轮询的机制实现对数据库新增数据的实时监控,把监控到的数据可以发送到多种、目标端,包括分布式文件系统,关系数据库和分布式数据库,消息系统等。实时数据采集工具默认提供了一些常用的连接不同类型目标端的接口,也可以根据业务需求自定义扩展。
  • 可以结合分布式消息系统,把实时采集的数据发送到分布式消息系统中,再让的流处理框架对数据进行处理分析。

GetInsight数据实时同步工具的应用场景

  1. 海量日志、监控数据实时采集,把采集的海量信息存储到分布式文件系统或者数据仓库中。
  2. 关系数据库新增数据实时采集,可以实时监控关系数据库的数据新增情况。然后写入到channel中,根据sink配置情况,可以写入另一个关系数据库,也可以直接存到分布式文件系统和数据仓库中。
  3. 监控某端口的实时数据信息,即只要应用程序向这个端口里面写数据,这个source组件就可以获取到信息。然后通过配置的sink,把信息送到目标端
  4. 监控消息系统或者消息队列的实时数据。
  5. 监听一个指定的目录,即只要应用程序向这个指定的目录中添加新的文件,source组件就可以获取到该信息,并解析该文件的内容,然后写入到channel。
  6. 接收json格式数据。
  7. 监听http服务数据。

慧都工业大数据分析方案即将精益生产理论体系进行了完美的融合和应用,并对大数据总体架构进行了更细致明确的解读,提供自主研发的大数据平台,实现ETL、数据管理及存储、数据建模。如下图所示:

立即申请慧都大数据demo


关于慧都大数据分析平台

慧都大数据分析平台「GetInsight®」升级发布,将基于企业管理驾驶舱产品质量分析及预测设备分析及预测等大数据模型的构建,助力企业由传统运营模式向数字化、智能化的新模式转型升级,抓住数据经济的发展势头,提供管理效能,精准布局未来。了解更多,请联系在线客服

慧都大数据专业团队为企业提供商业智能大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!