李克特量表检验和统计学的“规律”外文翻译资料

 2022-12-28 06:12

李克特量表检验和统计学的“规律”

原文作者:Geoff Norman

摘要:研究报告的评论者经常批评统计方法的选择。 虽然其中一些批评是有根据的,但经常使用各种参数方法,如方差分析,回归,相关性,因为:(a)样本量太小,(b)数据可能无法正常分布,或(c)数据来自具有序数的李克特量表,因此不能使用参数统计量。 在本文中,我剖析了这些论点,并表明许多可追溯到20世纪30年代的研究一致表明参数统计在违反这些假设方面是稳健的。因此,像上述那些挑战是没有根据的,可以利用参数化方法而不用担心“得到错误答案”。

关键词:李克特, 统计, 稳健性,方差分析

在进行健康科学研究时经常出现的挫败感导致审稿人决定对所采用的统计方法提出异议。 研究人员偶尔会犯下令人震惊的错误,通常是与数据挖掘相关的多重测试现象。 但这很少是审稿人挑战的基础。 正如Bacchetti(2002)所指出的那样,这些评论中的许多都是毫无根据或错误的,并且似乎是由于评论文化鼓励“为了自己而过度评价批评,不恰当的统计教条主义”,并且受制于“时间压力,以及良好的同行评审缺乏奖励”。典型评论者在这一类型中的评论可能类似于下面列出的评论,这些评论来自5篇不同论文的评论,所有评论都在2个月内引起我的注意:

评论一

在使用参数测试(如t-test)的情况下,我希望看到结果假设分布的正态性

评论二

作者[使用]分析实践,这些实践不受数据类型的支持他们有... 序数据不支持数学计算作为改变分数,....... 作者采用的方法是站不住脚的.......

评论三

相关性的统计分析...... 用不适合非参数的方法完成,咨询统计学家。进行的t检验要求数据是正态分布的。 然而,这些假设的有效性......并不合理。鉴于每个群体的参与者人数很少,作者可以声称统计学意义?

评论四

样本量非常低...... 由于数据不是从正态分布中提取的由于样本量非常小,因此无法使用参数测试(例如ANOVA)分析数据。

评论五

您是否完成了功率分析以确定您的样本量是否足够高这些测试?

......低样本量,不确定是否可以在没有功率分析的情况下声明重要性确认; 否则,结果中很可能出现类型II错误。

其中一些评论,例如使用小样本ANOVA的禁令,建议使用功效分析来确定样本量是否足以进行参数测试,或者关注重要结果仍然可能是II型 错误,完全错误,并且比研究设计更多地揭示了评论者的能力。

其他的,如各种分布式假设或参数统计与序数数据的使用,可能是严格正确的,但未能考虑参数测试的稳健性,并忽略了大量文献,表明参数统计是完全合适的。 遗憾的是,这些评论者可以在文献中找到兼容的公司。 例如,Kuzon等人。 (1996)写了关于“统计分析的七个致命罪”。 第1点:使用有序数据的参数统计; 第2点涉及正态性的假设,并声称“在参数统计分析之前是合适的......研究样本必须来自正态分布的人群这类。和(2)样本量必须足够大才能代表人口1

本文的目的是纠正平衡。 统计方法的优点之一是,虽然它们通常涉及对数据的英雄假设,但即使违反这些数据,它似乎也很少。为了帮助研究人员更有效地应对上述挑战,本文回顾了各种统计方法的假设以及在违反假设时出现的问题(或更常见的是缺乏问题)。

这些问题与教育研究密切相关,因为我们的许多研究涉及一种或另一种评级量表,几乎所有评级量表都涉及7点李克特量表的变量。认识到李克特量表是序数的并不需要太多考虑。引用医学教育中最近的一篇文章(Jamieson 2004),“响应类别具有等级顺序,但值之间的间隔不能被认为是相等的”。真的严格来说。结果是,再次根据Jamieson的说法,“对于序数和区间变量,适当的描述性和推论性统计数据不同,如果使用错误的统计技术,研究人员就会增加得出错误结论的机会”。再次,严格说来。但是没有说明的是它增加了错误结论的可能性。这就是统计学家所说的“稳健性”,即使违反假设,测试也能给出正确答案的程度。如果它不会增加机会(或根本不增加),那么我们可以放下。

采取下一步非常重要,不仅仅是因为我们想要避免“得出错误的结论”。事实证明,参数化方法非常灵活,功能强大且全面。现象参数统计方法如因子分析,分层线性模型,结构方程模型都基于正态分布的区间级数据的假设。类似的概化理论,基于ANOVA,再次是参数化程序。相比之下,像Spearman rho,Kruskal-Wallis这样的排名方法似乎在时间上被冻结,并且很少使用。他们只能处理最简单的设计。如果Jamieson和其他人是对的,我们不能在Likert量表数据上使用参数化方法,并且我们必须证明我们的数据完全正态分布,那么我们可以有效地摧毁我们75%的关于教育,健康状况和生活质量的研究评估(正如一位编辑在驳回上述评论者评论之一时指出的那样)。

尽管Jamieson最近的论文显然让医学教育界感到意外,并且是2004年医学教育中下载次数最多的论文,但来回的论据已经持续了很长时间。 我将花一些时间来回顾这些问题,但我不会专注于假设,而是直接解决稳健性问题。 我将探讨三个特征 - 样本大小,非正态性和序数级测量对参数方法的使用的影响。 争论和回应:

1)您不能在本研究中使用参数测试,因为样本量太小这是最容易反击的参数。 这个问题没有在统计学文献中讨论过,并且没有出现在统计书中,原因很简单。 在参数统计的假设中,对样本大小没有任何限制。 例如,ANOVA只能用于大样本,而且应该对较小的样本使用t检验,这是不正确的。 ANOVA和t检验基于相同的假设; 对于两组,来自ANOVA的F检验是t检验的平方。 也不是在某些神奇的样本大小之下,应该使用非参数统计。 没有任何证据表明当样本量变小时,非参数测试比参数测试更合适。

实际上,有一种情况是非参数测试会给出一个非常保守的答案(即错误的)。对数据进行二分的行为(例如,使用期末考试分数创建通过和失败组并分析失败率,而不是简单地分析实际分数),可以极大地降低统计能力。我进行的模拟表明,如果数据是合理连续的并且合理地“表现良好”(乞求“合理”的问题),那么数据的二分法导致了统计能力下降。为此,我从两个假设分布的数据开始具有已知的分离,以便我可以计算差异的Z检验手段之间。(例如,两个分布以50和55为中心,具有样本大小100,标准偏差为15,然后我画了一个切点,使每个分布都是分为2组(“通过”和“失败”)。然后这导致了一个比例为292的桌子源自原始分布的重叠和切割点的位置。然后我使用标准公式计算P值为0.05的所需样本量。最后我计算显着Z检验的样本大小的比率并计算比率。该结果是样本量的成本从20%(当切点在第50百分位数时)到2,600%(当切点位于第5或第95百分位时)。这一发现既不新鲜也不可发表;其他作者也表现出类似的效果(苏珊1991; 亨特和施密特1990)。

样本量并不重要。 由于与测试选择无关的多种原因,使用统计数据可能是一个问题:

  1. 如果样本太少,外部有效性就成了一个问题。 很难说2名医生或3名护理学生代表任何事情(尽管有定性研究)。 但这是一个判断问题,而不是统计问题。
  2. 正如我们将在下一节中看到的,当样本量很小时,可能会对分布产生担忧(参见下一节)。 然而,事实证明,每组的划分大约为5。 问题不在于人们不能进行测试,而是人们可能会开始担心测试的稳健性。
  3. 当然,小样本需要更大的效果才能达到统计显着性。 但是,正如一位评论者所说,“鉴于每个群体的参与者人数很少,作者是否可以声称具有统计学意义?”,只是表明缺乏理解。 如果它很重要,那就很重要了。 小样本会使障碍更高,但如果你已经清除它,那么你就在那里。

2)您不能使用t检验和ANOVA,因为数据不是正态分布的这可能是最流行的神话之一。我们都看到漂亮的钟形曲线用于说明统计书中的z测试,t测试等,我们了解到参数测试是基于正态假设。遗憾的是,我们忘记了句子的最后部分。对于标准t检验ANOVA等,假设均值分布的正态性,而不是数据的分布。中心极限定理表明,对于每组大于5或10的样本,无论原始分布如何,均值大致正态分布。 ANOVA稳健性的实证研究一直追溯到Pearson(1931),他发现ANOVA对于高度偏斜的非正态分布和4,5和10的样本大小是稳健的。Boneau(1960)研究了正态,矩形和指数分布样本大小为5和15,并且显示20个计算的P值中的17个在0.04和0.07之间,标称值为0.05。因此理论和数据都集中在以下结论:对于大于5的样本大小,检验均值之间差异的参数方法不需要假设正态性,并且即使对于明显的非正态和非对称分布(如指数),也会产生几乎正确的答案。

3)您不能使用ANOVA和Pearson相关性(或回归,相当于同一个)的参数测试,因为数据是有序的,您不能假设正态性。

那么,问题是,李克特量表与线性正态分布的偏离是多么强大。实际上有三个答案。第一个,也许是最不激进的,是Carifio和Perla(2008)在对Jamieson(2004)的回应中所阐述的。正如我所说,它们开始指出那些捍卫参数方法不能用于序数数据的逻辑位置的人忽略了许多鲁棒性研究。但他们最强烈的论证似乎是,虽然李克特的问题或项目很可能是序数,但李克特量表(由多个项目的总和组成)将是间隔。它完全类似于日常的,完全可防御的,在多项选择测试中处理正确答案之和的实践,每个测试都是二进制的,作为区间标度。问题在于,他们通过扩展,支持单个项目的“序数”位置,并指出“分析单个李克特项目,还应该注意,这种做法应该很少发生。”他们的反驳可以几乎不被视为强烈的反驳。

Gaito(1980)详细阐述的第二种方法是,这根本不是一个统计问题。数字“不知道他们来自哪里”。这意味着,即使在概念上,李克特量表是有序的,在某种程度上我们无法在理论上保证1 =“绝对不同意”和2 =“不同意”之间的真实距离与4 =“没有意见”和5 =“中等同意”,这与分析无关,因为计算机无法肯定或否认它。没有独立的观察来验证或驳斥该问题。计算机所能做的就是得出关于数字本身的结论。因此,如果数字合理分配,我们可以推断他们的手段,差异或其他。严格地说,我们不能对李克特数中反映的潜在的,特征的差异做出进一步的推论,但这并不能使关于数字的结论无效。这几乎是一种“减少吸收”的论点,似乎通过使其成为别人的问题来解决问题,而不是统计学家的问题。毕竟,有人必须决定对数字进行的分析是否反映了基础结构,并且Gaito不支持这种推断。

因此,让我们回到用于研究稳健性的更经验的方法。 正如我们之前所展示的那样,ANOVA和其他集中趋势检验对于偏度和非正态性等问题非常稳健。 由于序数分布相当于数与潜变量之间的某种非线性关系,因此在我看来,关于正常性的鲁棒性问题的答案基本上由上面引用的研究回答,表明对非正态性的鲁棒性。

然而,当涉及到相关性和回归时,这种禁止不能轻易处理。回归和相关方法的本质是它们固有地处理变异,而不是集中趋势(Cronbach 1957)。我们不再谈论手段的分配。相反,相关的幅度对分布的极值处的个体数据敏感,因为这些“锚定”回归线。因此,可以想象,分布偏差或非线性的扭曲很可能“给出错误的答案”。

如果李克特评级是序数,这反过来意味着分布高度偏斜或具有一些其他不良特性,那么关于我们是否可以继续计算相关性或回归系数是一个统计问题。它再次成为一个健壮的问题。 如果分布不正常且线性。 相关性会发生什么变化? 这一次,没有“中心极限定理”来提供理论上的信心。 然而,有许多研究令人放心。 Pearson(1931,1932a,b),Dunlap(1931)和Havlicek和Peterson(1976)都使用理论分布表明,Pearson相关性在偏度和非正态性方面是稳健的。Havlicek和Peterson进行了最广泛的模拟研究,观察样本大小从5到60(每个重复3,000-5,000次),用于正常,矩形和序数标度(后者通过随机加数和减去数来获得)。然后计算每个标称幅度内观察到的相关性的比例,例如 对于0.05的标称比例,该区域中样品的比例范围为0.046至0.053。 他们得出的结论是“皮尔逊对极端违反正常性和规模类型的基本假设是相当敏感的”。

我最近用一些真实的比例数据确认了这些结果。 我得到了93例患者的数据集,这些患者两次完成了与咳嗽相关的生活质量测量,包括8点,10分量表(Fletcher et al.2010)。 问题的形式如下:

在我访问之前,我有严重的健康问题。

在我访问之前,我无法参加活动。

并且响应是10分制,具有渐变:

0 =没问题

2 =温和的问题

4 =中等问题

6 =严重的问题

8 =非常严重的问题

10 =最糟糕的问题

每一个回复都是通过检查显示以下信息的卡片做出的:(a)数字,(b)描述,(c)图形化的“阶梯”,以及(d)悲伤的幸福面孔。

为了创建更多非常有序的数据集,我首先将原始数据转换为5个点,通过组合0和1,2和3,4和5,6和7,以及8,9和10。最后,模拟a非常有序的偏态分布,我创建了一个新的4点量表,其中0 = 1; 1和2 = 2; 3,4和5 = 3; 和6,7,8,9和10 = 4.我再次计算了Pearson和Spearman的相关性,并研究了两者之间的关系(表1)。

对于这组观察,Pearson相关性和基于等级的Spearman相关性产生了几乎相同的值,即使在明显非正常的偏斜数据的条件下也是如此。 现在事实证明,当你有许多并列排名时,斯皮尔曼给出的答案与皮尔逊略有不同,但这反映了斯皮尔曼处理关系的方式错误,而不是皮尔

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[277280],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。