Loading
0

Minitab小技巧:在Minitab统计软件中获取分层样本

Minitab Statistical Software是一款无与伦比的可视化统计分析软件,它会审视当前及过往的数据,以找出趋势并预测规律、发现变量之间隐藏的关系、可视化数据交互作用并识别重要因素,从而解答最棘手的问题、应对最严峻的难题。

点击立即下载Minitab


医疗保险和医疗补助服务中心(CMS)隔一段时间就会更新一次星级,如果有医院名单,就可以根据名单查看从Minitab中的数据中获取随机样本的难易程度,这样会使星级评价更加简单。

南卡罗来纳州查尔斯顿罗珀医院

举例来说,您想研究政府的新星级与Hospitalsafetyscore.org提供的安全等级评分之间的关联。CMS评分与整体质量有关,其中包括与安全性无关的成分,例如患者与医生之间的沟通质量。安全评分使用诸如患者手术前多久开始使用抗生素以及医生订购药物的过程是否可靠等因素来判断患者的安全性。

CMS评分为1到5星。安全分数给出A至F等级。这两项措施不应该重复,但是了解一所更安全的医院与一所更高质量的医院之间是否存在关联是很有趣的。

政府可以提供下载星级评分中所有4,788行数据的功能,但是hospitalsafetyscore.org倾向于按位置提供信息,以便潜在患者可以快速检查附近的医院或找到特定的医院。为了比较星级和安全评分,我们需要两个值。

一种解决方案是在Hospitalsafetyscore.org中搜索政府数据库中所有4,788家医院的名称,并记录我们找到的所有分数。(尽管即使这样做,也不会全部找到。例如,马里兰州的医院不需要提供hospitalsafetyscore.org使用的数据。)但是,搜索4,788家医院非常耗时。

更快的解决方案是使用数据样本研究关系,接下来将使用政府的星级评分数据作为抽样框架。

一个简单的随机样本

在Minitab中获得简单的随机样本很容易。如果您已经在Minitab中拥有政府的星级数据,则可以尝试这样做(或者,您可以跳过从政府那里获得的数据,而使用 我创建的此Minitab工作表版本):

  • 选择“ 计算”>“随机数据”>“来自列的样本”。
  • 在“要采样的行数”中,输入50。
  • 在“ 从列”中,输入c1-c29。这样一来,您就可以从一行数据中获取所有信息到新样本中。
  • 在将样品存储在中,输入c30-c58。单击确定。
  • 将列标题从原始数据复制到示例数据。

现在,您选择了50家医院的样本,原始数据集中的每一行都有相同的可能性。

分层样本

当然,您抽取的每个简单随机样本都可能无法给您一些代表性,特别是在样本很小的情况下。例如,在政府星级评定中,只有2.82%的医院获得5星级(102家医院)。更糟糕的是,数据中将近25%的医院没有星级评定(有1,171家医院没有星级评定)。

如果对大小为50的样本进行超几何概率计算,并假设在3617个人口中发生102个事件,会发现大约25%的随机样本可以让0家医院获得5星。一个没有任何五星级医院的简单随机样本可以告诉我们有关一般关联的信息,但不会提供太多有关获得五星级医院期望安全等级的信息。

解决该问题的一种方法是采用更大的简单随机样本。如果您使用100号样本而不是50号样本,那么您没有得到任何五星级医院的可能性几乎会降低到5%。另一种方法是修改抽样方案,以确保您将每个医院的排名都纳入样本中。通常,您将样本分为不同的组或层次。然后,您可以从每个阶层中抽取一个简单的随机样本。最后,您将多个简单的随机样本组合在一起以形成最终样本。

您确定每个阶层要进行多少观察的确切方法取决于您的目标,但对于这种情况,也可以为每个星级获得10家医院。然后首先划分数据:

  • 选择“ 数据”>“拆分工作表”。
  • 在[ 按变数]中,输入[医院整体评分]。单击确定。

现在,获得每个星级的医院都有单独的工作表,在每个工作表上重复简单的随机抽样过程,以便从每个排名中抽取10个样本。接下来要合并来自不同星级数据的那些样本。

  • 选择“ 数据”>“堆栈工作表”。
  • 移动工作表从星评级数据可用工作表到工作表堆栈。
  • 命名新工作表,然后单击“ 确定”。

如果您希望工作表只是您的最终样本,您可以再走一步。

  • 选择“ 数据”>“复制”>“列到列”。
  • 在从列复制中,输入c29-c58。
  • 命名新的工作表。
  • 单击“ 分组数据”。
  • 选择匹配的行,然后单击条件。
  • 在“ 条件”中,输入c42 <>'*'。在所有3个对话框中单击“ 确定”。

现在,您有了一个包含50家医院的工作表,每个星级10家。

医院资料

在hospitalsafetyscore.org上,能够在样本带有政府星级的医院样本中找到30家医院的安全等级。但是与星级较高的医院相比,更有可能找到星级较低的医院的安全等级,而如果您对得分之间的关系感兴趣,而不是对各个医院的评估感兴趣,可以继续使用较小的样本量,以了解是否可以大致了解两者之间的关系。

下面的样本数据表明,安全评分与政府的星级评分之间存在某种关系。如果将变量视为序数,则衡量它们相关性的Spearman的rho约为0.73,并且与0显着不同。当然,不要期望完美的一致,因为两个等级旨在衡量不同的结构。不过,在分层样本中,可以看到,没有一星级医院的安全评分比C好,并且没有五星级医院的安全评分低于B。

随着政府的总体评价提高,安全评分也会提高

如果您感兴趣,可以下载Minitab来试试!当然,你有任何其他想了解的信息,可以点击咨询在线客服>>