Tableau Prep 帮助每个人快速、自信地组合、塑造和清理他们的数据进行分析。使用场景准备,您可以快速查看您的数据,并直接与之交互,以过滤、组合和清理——不管它的大小。为了使这成为可能,在执行任何清理操作之前,场景准备从数据源提取数据,这样您就可以看到更改的直接影响。
当连接到一个大的数据集时,场景准备可能会在默认情况下进行采样,将数据的子集带到流中,供您继续工作。这使得与分析所有数据并在工作时对更大的数据量应用更改相比,流更高效。当你运行流并生成输出时,场景准备将处理你的数据集中的所有记录。
让我们更仔细地看看在场景中采样是如何工作的,并回顾一下在处理大型数据集时如何利用这个功能。
数据采样违约
Tableau Prep 根据数据中显示的字段的数量和类型,准备快速地确定一个样本是否必要(以及在样本中引入的默认行数)。当一个步骤被添加到流中时,您可以看到数据被取样的指示,以及样本中包含的行数。
文本文件的输入步骤
干净的步骤显示的行数
在大多数情况下,可能会对100多万行的数据进行取样;默认的样本量是基于字段的数量和字段的数据类型,而不是记录的数量。拥有更多字段的数据集将导致具有较少记录(行)的样本,而不是具有较少字段的数据集。这意味着,如果你有300个字段,你的样本中会比你有5个字段的行数更少。数据类型也是一个因素。带有字符串数据类型的字段通常比数字数据类型大。因此,文本重的数据集在抽样时返回的行数比以数字为主的数据集要少。
尽管Tableau Prep 有帮助的抽样检查,但您可能会发现您需要调整样本,原因是:
1、需要一个更具代表性的示例(例如,默认设置只从2005年数据集覆盖2005-2018年的数据中提取数据)。
2、当拥有按日期排序的数据,或者使用的是通配符联合时,这是很常见的。
3、当您想要生成一个更小的样本(您很了解数据,并且希望尽可能地简化准备工作)。
4、您想要生成一个更大的样本或使用所有的数据(可能有太多的不规范,用一个小样本有效地清理数据)。
在采样前删除不需要的数据
一、在输入步骤中应用过滤器
如果您正在过滤数据以限制某个领域的值,那么在输入步骤中应用过滤器将提高性能,并帮助您从样本中获得更多信息。在下面的例子中,我注意到我的文件在2014年有多余的记录。如果我从清理步骤中过滤这些记录,那么在数据被取样之后,100 K行将被删除,这使得我在2015年只留下了50 K记录。但是如果我在输入步骤中过滤数据,过滤器将首先被应用,我将从2015年获得150 k的记录到我的样本中。
二、删除不需要的字段
如果我引入飞行数据(在上面的截图中使用),有几个字段大部分是null,我知道在我的分析中我不会使用它们。通过在输入步骤中去选择字段,数据永远不会被加载到场景中,这样可以提高性能,并允许更大的样本容量。
提示:
1、在输入步骤中所做的所有更改将导致重新生成数据样本。如果您有一个大的数据集,并且想要使用随机抽样,您可以通过将这些更改组合在一起来减少等待时间,或者在将抽样方法更改为随机之前。
2、如果您不确定在输入步骤中您可以过滤或删除什么,profile窗格是识别这些更改的好地方。让画面准备生成一个默认的样例,然后使用profile窗格来查看您可以删除哪些字段或值。只要确保你回到输入步骤来做这些调整。这将重新生成样本,其余的清理工作可以在优化的样本上完成。
使用数据样本选项
一旦您从数据集中修剪了不必要的字段和值,您可能仍然希望更改样品中的数据量,或者如何生成样品。
这些设置可以在输入步骤的Data Sample选项卡上找到:
数据量:这个选项决定了多少数据被带入到流中。
默认示例数量:默认样本配置中包含的数据量。这不是固定的行数,而是返回多少记录取决于您的数据的特征。
固定金额:指定在样本中包含的特定数量的记录,从默认值增加或减少。
使用所有的数据:如果您不想要对数据进行取样,那么您可以选择这个选项来强制显示您的数据中的所有行。
采样方法
这个选项决定如何从数据源中选择记录。
快速选择:默认情况下,数据库会尽可能快地返回请求的行数。这可能是根据数据排序的第一行,或者数据库在以前的查询中缓存到内存中的行。虽然这几乎总是比随机抽样更快的结果,但它可能会返回一个有偏差的样本(例如,如果记录按时间顺序排序,那么数据仅为一年的数据,而不是数据中的所有年份)。
随机样本:数据库查看数据集中的每一行,并随机返回记录,直到它达到所请求的行数,使样本更具代表性。然而,当数据首先被检索时,这将影响性能,因为必须对整个数据集进行扫描(而不仅仅是第一个N个结果,如快速选择)。如果快速选择的样本不包含您所需要的数据,执行一个通配符联合并从每个文件中获取记录,或者连接两个取样表返回很少的记录,那么这将非常有用。
Ps:如果你的数据是按时间排序的,那么随机抽样可以帮助你。
在Tableau Prep中查看您的输出并进行迭代
检查任何基于样本准备的数据集是很重要的。运行您的流程,并查看表桌面的输出。(注意,您应该运行完整的流程,而不是“在桌面环境中查看样本”,这样您就可以看到完整的数据了)。如果你看到样本中没有的出乎意料或不正确的值,你可以回到场景中来解决这个问题。这个示例可能会重新生成,但是您可以解决已知的问题,即使它们没有出现在您的示例中,通过创建计算或通过group和replace手动添加新值。
Tableau团队一直在研究一些特性和改进,使您可以更轻松地使用相关的样本来准备大型数据集。本软件免费试用版可关注https://www.evget.com/supplier/530
想了解更多BI资讯和软件推荐关注http://bigdata.evget.com/
发表评论