Loading
0

IBM BigInsights 4.1 发布了 ,对Hadoop的支持更加深入!

IBM BigInsights 是实现IBM大数据战略的重要旗舰产品,下文将介绍刚发布的4.1版本所包含的功能和组件。

IBM BigInsights 由两个部分组成,分为开源部分和IBM增值部分,由此组合成5个不同的软件包提供给市场需求不同的客户使用。

biginsight

在上图中蓝线之下的部分是IBM Open Platform with Apache Hadoop 版本,它包含了由Apache Hadoop社区发布的最新模块。刚发布的IBM BigInsights 4.1版本包含了以下的内容:

  • Hadoop 2.7.1
  • HBase 1.1.1
  • Hive 1.2.1
  • Knox 0.6.0
  • Oozie 4.2.0
  • Pig 0.15.0
  • Slider 0.80.0
  • Solr 5.1.0
  • Spark 1.4.1
  • Sqoop 1.4.6
  • ZooKeeper 3.4.6
  • Kafka 0.8.2.1 (新加)
  • Ambari 2.1
  • Avro 1.7.7
  • Flume 1.5.2

用户可以很方便地使用Apache Ambari 2.1来安装部署IBM Open Platform with Apache Hadoop 4.1,服务也可选择Apache社区支持(免费)或购买IBM原厂服务。

新版本可以运行的硬件和操作系统平台更多了:

X86-64平台支持

Red Hat Enterprise Linux 7

Red Hat Enterprise Linux 6

IBM Power (新支持)

Red Hat Enterprise Linux 7

当然,对于将Hadoop引入到企业,IBM不仅只用到开源部分,没有金刚钻,不揽瓷器活!以下内容介绍IBM 对Hadoop 增值部分

金刚钻之一 : BigSheets

企业内分析数据最常使用的工具其实是电子表格,来到大数据时代,怎能轻易放弃这么好用的工具?IBM提供BigSheets可以轻易将存在Hadoop里面的数据进行可视化展现,使用习惯也是类似电子表格方式,过滤行?透视表?合并不同表格列?然后选择图形展现:柱状图?饼图?热点图?地理图?轻松搞定!它自动变成了MR跑出结果!

biginsight

BigSheets表格处理功能

biginsight

饼状图

biginsight

标记云图

biginsight

地理信息集成图

金刚钻之二:BigSQL

企业传统上使用SQL语言访问数据仓库得到分析结果,在企业引入Hadoop架构变成了分布式存储,并且成为潮流时,IBM也顺势将其企业级MPP的DB2数据库引擎移植到了Hadoop平台上,这个SQL查询优化器引擎在国内外可是久经考验,出色性能得到公认,目前是开源社区技术拍马也难追的,没有几十年技术沉淀是学不会的!

biginsight

金刚钻之三:BigR

R语言被越来越多的应用在企业内进行数据统计和挖掘,它具备以下优点:

  • 交互式 — 输入命令后可立刻看到结果。
  • 简单 — 从安装并开始使用它的那一刻起,就可以轻松获得有用的结果。
  • 全面 — R 利用了庞大的统计分析软件库,这些软件库与软件包一起成长。
  • 可扩展 — 可以轻松地创建自己的功能库并与 R 社区共享它们。

R 还提供了各种工具,可使用它们来将数据轻松导入软件包以进行分析。但缺点也明显,天生不支持在分布式的部署,因此有很多项目尝试将R引入到Hadoop领域。IBM实现的方式就是利用Big R技术将R算法集成如Hadoop平台内。IBM BigR的最大特色是不需重写R程序,又充分利用的Hadoop平台的可扩展性,还可以直接在BigSQL里面使用SQL来调用R算法!4.1版本还把SystemML-IBM Watson机器学习算法修改后也可以直接在BigR里面运行了!

biginsight

金刚钻之四:文本分析

大数据其中重要的应用就是要分析机器日志和社交媒体的数据,里面有大量的自然语言语义需要分析,IBM在海外和推特(Twitter)是合作伙伴的关系,可以轻松将其社交媒体数据放入BigInsights进行分析。需要用到的重要的工具就是Text Analytics模块,IBM提供了一个图形化管理的工具,可以便捷地定义抓取规则。当然,里面也包含一系列预定义好的社交媒体接口,无需重复工作,可以快速开展工作。

biginsight

由以上IBM给Hadoop社区增值的四大金刚钻组合出主要的两个付费版本:给数据分析员使用的版本就是含BigSheets和BigSQL模块的IBM BigInsights Analyst 产品包;给数据科学家使用的版本是含四个金刚钻的IBM BigInsights Data Scientist 产品包。

另外对于Hadoop平台的有力补充,在IBM BigInsights Enterprise Management 包内含有另外两个特别的模块:GPFS-FPO分布式文件系统和Platform Symphony任务调度和多租户管理模块。前者是可以替代HDFS的文件系统,后者可以有力补充YRAN的一些局限性,我们将在未来的文章内详细介绍。

BigInsights 4.1在安全方面也做了重大改进,例如:

  • 除利用LDAP, Knox 也可以对PAM支持
  • 可以自动和手工设置Kerberos

看完了是否心动?IBM提供学习环境,免费下载Quick Start产品包吧,其中Quick Start产品包除了包含开源的IBM Open Platform for Apache Hadoop 外,BigSheets、BigSQL、BigR、Text Analytics功能都在里面!

下载试用链接:

http://bigdata.evget.com/product/385.html

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381