Loading
0

数据分析工具,你选对了吗?

一个数据分析项目,通常数据处理时间占70%以上,使用先进的工具有利于提升效率。那么,哪款数据分析工具深受数据分析师们的青睐呢?

当然是 IBM 数据分析大家族里的Cognos Analytics Data Sets。

Data Sets是Cognos Analytics V11.0.4提供的一种新的数据门户,用于创建一个定制的、用户经常使用的items的集合。Data Sets从packages或data modules中创建。当Data Sets更新后,下次在仪表板或storytelling中使用的也将是最新的Data Sets版本。

通过从一个package或者一个data module中选择一个或多个列的方式定义Data Sets,并且可以使用过滤来减少记录数量。相当于对数据做了一个行和列的过滤,取得数据的子集。数据被提取出来存放在Cognos Analytics系统中。由于数据被缓存了,Data Sets可以提高查询效率,减少数据库的工作负载。也可以用Data Sets为数据保留一个特定时间的版本。

cognos

一起来看一下在仪表板中使用Data Sets的基本方法

首先,打开仪表板,选择FM package。

cognos

在下面的界面中定义Data Sets的行和列。

cognos

接下来,我们将介绍进阶的使用方法。

汇总明细值,抑制重复

当从package或者data module中创建Data Sets时,可以选择是否汇总明细值,抑制重复。当勾选了这个选项时,测量值会以显式包含在这个Data Sets中的最小粒度做一个汇总。例如,您的数据仓库中可能有一张数百万条记录的销售表,里面记录了各个销售商的销售数量,但是您只想对每个区域的销售数量进行分析。假设您的数据集中只包含了“区域”和“销售数量”这两列,并且您勾选了“汇总明细值,抑制重复”,那么这个Data Sets中将只包含和您的“区域”数量相当的记录数。

请注意观察比较下面的两张图,勾选了汇总的图中“Quantity”列的数值比没有勾选汇总的图中的“Quantity”列的数值大得多,这是因为前者做了一个Group by的汇总计算。

cognos
cognos

使用这个选项的好处是,它可以将数据集压缩到更少的行,这可以带来更好的性能。但是,当您需要在分析中关注信息细节的时候就不要使用这个选项。

刷新Data Sets

通过Cognos Analytics门户,您可以随时改变数据集的列和过滤器。您也可以随时更新它的数据,或者定义一张时间表自动刷新数据,例如每周、每天、每小时或每X分钟。

cognos

从Data Sets中创建Data Sets

通常我们是从data module中创建 Data Sets的,但其实也可以从Data Sets中创建Data Sets。每个Data Sets都允许您进一步的连接、汇总和预计算数据。使用这种方法您可以在汇总数据的基础上进一步汇总。您可以将数亿条记录通过汇总削减成更适合专题探索的信息。

Data Sets的控制

DataSets和包括底层数据库在内的所有系统都是分隔的,因此数据库管理员不必担心对Data Sets的查询会消耗数据库系统的运算资源。通过使用过滤器非常容易控制Data Sets 的大小。Cognos管理员可以限定单个Data Sets的大小和系统上任何一个用户可以占用的总量。Cognos管理员也可以控制谁可以创建Data Sets。如果仪表板使用的Data Sets比较小,那么响应速度就非常快。

在Cognos 环境之间移动Data Sets

可以把Data Sets从一个Cognos Analytics环境转移到另一个环境。如果您需要把开发环境中经过测试的Data Sets发布到生产环境中,首先要在开发环境中创建一个包含了有Data Sets的那些文件夹的“Deployment”。如果希望包含提取的数据,需要勾选“Include reportoutput versions”,否则只有Data Sets 的元数据信息。之后再将这个“Deployment”导入到生产环境中。

Data Sets替换Data Modules的快照模式

Cognos Analytics的先前版本在Data Modules中提供了一个快照模式选项,这种方式会提取所有数据。在11.0.4 中此快照模式不再可用,它已经被Data Sets 替代。在先前版本中设置为快照模式的Data Modules将升级到11.0.4及更高版本中的“live”/“regular” data modules。与现在已弃用的快照模式相比,数据集具有以下优点:

  • Data Sets提供了提取汇总值或详细值的选项。
  • Data Sets将数据存储为单个表,而快照模块为模块中的每个表存储单独的文件。 在其他条件相同的情况下,不要求Join的查询将更快。
  • 可以将Data Modules的子集提取到Data Sets中。
  • Data Sets可以按照计划定时刷新。

看完以上的对于Data Sets的深度介绍,作为数据分析师的你,有没有跃跃一试的感觉?不想每天加班做数据分析的你,快来使用Data Sets来提高你的工作效率。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381