英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
假设检验:方法和局限性
假设检验是社会和行为科学家基本方法论工具包的一部分。 但是,其应用背后的哲学和实践辩论常常被忽视。 假设检验的有效应用可以从清晰的洞察,基本概念及其局限性中获益。
- 假设检验的思想
检验是一个统计程序,以经验证据为基础,获得关于命题虚假真实性的陈述。 这是在模型的背景下完成的,其中这个经验证据的易错性或可变性由概率表示。 在这个模型中,证据被总结在观察数据中,这被认为是随机的,即概率过程的结果; 被测试的命题被表示为观察数据的概率分布的特性。
-
- 历史
第一次公布的统计检验是在1710年由John Arbuthnot提出的,他怀疑人类出生时年复一年出生的男孩比例略高于女孩的比例(参见Hacking 1965)。 他计算出,如果男性出生的概率恰好为0.5,那么这个经验事实将是极不可能的(他获得了1/483600000000000000000000的概率),如果男性出生的概率正好为0.5,并认为这是上天眷顾的证明,因为男孩中的一些人将成为士兵,过早死亡的风险更高,因此在年轻人中获得同等比例的男性需要更高的生育率。我们在这里看到一个测试的基本要素:命题假设检验方法和局限性,男性的出生率是0.5,以这些作为随机变量的相关计算结果数据,如果命题是真实的,则计算数据不太可能,并且进一步的结论解释命题的错误。
Karl Pearsonin于1900年提出了接近现代意义上测试的第一个统计程序之一。这是将观察频率分布与理论假设分布进行比较的著名的卡方检验。皮尔森推导出了现在众所周知的统计量来检验命题或假设,即某些随机变量的各种可能(最终结果)的概率是由某些预先指定的数字给出的。皮尔森证明,这个统计量(在大样本近似下)具有卡方分布; 因此这个分布可以用来计算假设假设成立的概率,测试统计量将假设一个等于或大于实际观测值的值。
在二十世纪的最初几十年里,主要由R.A.Fisher(例如1925)进一步阐述和阐述了测试的思想。在他的显着性检验中,数据被认为是一个随机变量X(通常是一个向量或矩阵)的结果,它的概率分布是一些分布族的成员; 被测试的假设,也被称为原假设,是一个定义这个家族子集的断言; 使用作为X的函数的检验统计量T=t(X)来指示数据偏离原假设的程度; 并且如果虚假设为真,那么测试统计量的给定结果的显着性被计算为概率以获得至少与给定结果一样高的T值。如果T的概率分布不是由原假设唯一确定的,那么显着性是该概率的最大值,对于与原假设相容的T的所有分布。 重要概率现在通常称为p值(字母p表示概率)。 如果重要性概率为0.05或更小,费舍尔认为统计检验结果为“重要”,但费舍尔始终认为这个阈值是任意性质的。
1928年,J. Neyman和Egon Pearson(Karl的儿子)提出了一种相互竞争的方法。 他们批评费舍尔选择检验统计量的随意性,并断言,对于检验统计量的理性选择,不仅需要一个原假设,而且还需要一个备择假设,该假设体现了一个与原假设所表示的命题相一致的命题。他们将测试问题形式化为两个决策问题。 用H0表示原假设和另一个H1,这两个决定被表示为#39;拒绝H0#39;和#39;不拒绝H0#39;(第二个决定也被称为rsquo;接受H0#39;,但下面将讨论这是一个不幸的事情 )两个错误是可能的:拒绝一个真正的H0,并且拒绝一个错误的H0,Neyman和Pearson将原假设视为一种标准情况,举证责任在于研究人员证明(如果可能的话) 这个命题的不可行性。
相应地,他们称拒绝第一类错误和第二类错误拒绝错误的错误是错误的。 第一种错误被认为比第二种错误更严重。 如果H1为真,那么正确拒绝H0的概率是1,减去第二类错误的概率,假设替代假设是真实的,他们称之为测试的力量.Neyman和Pearson提出了要求 假设第一类错误的概率确实如此,它不会超过一些被称为重要性阈值的阈值,通常用alpha;表示,而且他们提出确定测试,以便在这个基本条件下,效力将是最大的。
在Neyman-Pearson公式中,我们以更苛刻的模型为代价获得了更丰富的结果(即构建良好测试的特定规则)。 除了Fisher的原假设外,我们还需要指定一个备择假设; 我们必须将测试问题设想为双重决策的情况。 弗里德在一方面与内曼和皮尔逊之间进行了辩论。 Hacking(1965)和Gigerenzer等人总结了这一争论和不同的哲学立场。 (1989),他还给出了进一步的历史记录。 后一项研究还讨论了这种争论如何在混合理论中在社会科学统计学的教学和实践中得到解决,这种混合理论将两种测试方法的要素结合在一起,并且经常被视为科学方法的客观规则, 在哲学上的争议。
这种混合特征的例子是,根据Neyman-Pearson方法,通过引用无效假设和备择假设以及第一种和第二种错误(尽管权力倾向于在 有限的,往往只是理论上的方式),而在费舍尔的精神下,统计检验被认为是提供有关特定假设检验的证据的程序,而不仅仅是作为一种行为规则,在适用于大量 假设和数据集。 Lehmann(1993)认为,确实有一个统一的公式,结合了这两种方法的最佳特征。
与其将假设检验作为具有预定显着性水平的“拒绝/不拒绝”决策,通常采用另一种方法:报告p值或显着性概率,将其定义为显着性水平的最小值 观察到的结果会导致拒绝原假设。 等同地,这可以被定义为假设检验:方法论和局限性作为在原假设下计算的观察结果偏离原假设的概率,至少与实际观察到的结果一样多。 这个偏差是通过检验统计来衡量的,而p值只是检验统计的尾部概率。 对于给定的显着性水平alpha;,当且仅当p%alpha;时,原假设被拒绝。
- 实证研究中的假设检验
2.1原假设的作用
在社会和行为科学中,假设检验的标准使用针对的是单个研究问题,实际上总是大型调查的片段,关于某些或其他效应的存在。这种影响可能是两组平均值之间的差异,某些因变量的某些解释变量的影响,如多元线性回归分析中的回归系数所表示的那样等。示意图表明,研究人员想要证明一个研究假设,有问题的影响的确存在。那么这个假设的否定被理解为这个效应不存在的命题,并且这个命题被假设为原假设。表明存在效应的研究假设是替代假设。拒绝原假设被解释为支持假设效应的存在。通过这种方式,研究者的举证责任在于,如果实际上不存在这种效应,那么第一类的错误就是支持存在这种效应的证据。拒绝原假设的通常欢迎词是声明已经获得了显着的结果。
2.2 例子:t检验
作为一个主要的例子,考虑两个任意标记为A和B的组对于一些数字特征X是不同的。可用的数据是这个特征对于A组中的一些个体的测XAi和特征的测量XBi对于组B中的其他个体i。模拟这个过程的第一步是将观测值X视为随机变量的结果,通常假设它们是随机独立的并且具有不依赖于个体i的概率分布。下一步通常是关注期望值,即两组中的总体均值,这里用mu;A和mu;A表示。被试验的命题被形式化为mu;A和mu;B不同(双侧替代假设)或者一个(例如mu;A)大于另一个(例如mu;B)(单侧替代假设)的表述。原假设H0被定义为mu;A和mu;B相等的陈述。
对于这个测试问题最常用的测试是Student#39;s t-test,它是在W.Gosset的化名之后命名的,他在1908年为这个测试奠定了数学基础。测试统计是其中MA和MB是两个样本均值,S2是汇总的组内方差,nA和nB是两个样本大小。(这些数量的定义可以在任何统计学教科书中找到)该公式说明了许多检验统计的性质,即观察效应(这里是两个样本均值之间的差异)与变异性度量(基于组内变异)进行比较。学生/ Gosset表明,如果变量X在两组中具有相同方差的正态分布,那么如果虚假设为真,则T具有df=nA nB-2自由度上的所谓t分布。对于双侧替代假设,对于T的绝对值的大值,H0被拒绝,因为对于T本身的大值,单数假设H0被拒绝。 H0被拒绝的阈值称为临界值,并且由t分布确定,使得重要性级别具有预先分配的值。表示级别alpha;处的单侧阈值表示为tdf; alpha;,因此单侧t检验的“拒绝区域”由Tgt;tdf; alpha; 给出。单侧检验的强度更大的是mu;Agt;mu;B(对应于单边替代假设)的双侧检验,而mu;Alt;mu;B则更小。这就是Neyman-Pearson公式中使用单侧检验的原因,如果替代假设是单侧的(在这种情况下不考虑参数值mu;Alt;mu;B)。
社会和行为科学中显着水平的传统价值为0.05。 对于组合样本量nAnB的大数值,t检验的临界值近似于可以从标准正态分布计算的临界值。 这是因为预测方差并且事先不知道的事实变得越来越不重要,因为组合样本量变大; 如果预先知道总体方差并代替S2,则检验统计量将具有标准正态分布,并且检验将是所谓的z检验。对于此测试,单侧测试的临界值为1.645,双侧测试的临界值为1.960。 权力取决于许多数量:样本规模,总体均值和方差以及重要程度。作为例子,alpha;-0.05的单侧z检验的功效等于0.50,
其中sigma;是组内标准差。 如果(mu;A-mu;B)/sigma;等于该值的两倍,则功率等于0.95。
2.3假设的作用
统计检验所需的概率表不是随意的,而是基于对用于检验的观察结果的某些假设。在双样本t检验中,假设是不同个体的观察结果是统计独立的,正态分布的,随机变量的结果,同一组内所有个体的预期值都是相同的,而且两个组中的所有个体都有相同的方差。这样的假设并不是自动满足的,对于某些假设,它们是否满足准确性可能会受到怀疑。原假设H0和替代假设H1严格地说是暗示这些假设的表述,因此它们不是彼此的补充。第三种可能性:假设是无效的,并且H0和H1都不是真的。测试的概率性质对这些假设的敏感性被称为缺乏测试的鲁棒性。稳健性研究的重点在于原假设的假设以及第一类错误的概率对这些假设的敏感性,,但是对偏离假设选择假设的鲁棒性的研究也已经完成,参见Wilcox(1998)。
鲁棒性研究的一个普遍结论是测试对所做的独立性假设非常敏感。 幸运的是,这些假设通常由研究人员通过选择实验或观察设计来控制。 与独立观测的传统偏差是多变量观测和主题内重复测量设计,统计学文献丰富了这种依赖观测的方法。 最近,已经开发了用于多分类观测的分簇观测方法(例如,个体响应者聚集在组内),名称为多元分析和分级线性模型。
另一个一般性结论是,在正态分布假设(例如t-检验)下推导的测试性质可能对异常值非常敏感,即单个或几个观察值与大部分观测值强烈偏离。由于在正态分布情况下,外部事件发生的可能性非常低,所以它们被正常假设“假设”。 对异常值缺乏稳健性和敏感度导致了三个主要的发展。
首先,有非参数测试,它们并不假设参数族的分布(如正常)。 这些大多数是基于观察的等级而不是它们的数值。 它们是统计学教科书中的标准票价。其次,基于对异常值或重尾分布不敏感的观测值的数值,例如通过某种外部观测的自动减量(例如, Wilcox,1998)。 这种测试的目的是尽可能保持高功率,同时降低对正态分布偏差的敏感度或偏离其他假设。
第三,已经开发出诊断手段来发现单一的观察结果或观察组,并对统计过程的结果产生不适当的影响(例如Cook和Weisberg 1999,Fox 1991)。 大多数这些诊断背后的想法是,大多数观察结果来自与统计模型的假设足够一致的分布,但观察结果可能会受到少量不适合的观察结果的污染。 理想情况下,通过仔细检查数据或数据收集过程,这些观察结果也应该是可以识别的。 在删除了这些糟糕的观察结果后,可以继续使用更传统的统计程序,假设其余数据符合模型假设。
- 置信区间
置信区间与假设检验密切相关。他们专注于统计模型中的参数。这样的参数的例子是,在上述的双样本情况下,两个总体的差异意味着mu;A-mu;B或群内标准差sigma;。为了以一般的术语对其进行框架化,考虑由theta;表示的一维统计参数。无效假设检验是关于数据是否与假设参数theta;(在这种情况下mu;A-mu;B)具有特定值0的假设相一致的问题。相反,可以提出这样一个问题:theta;的值是多少数据是兼容的?这个问题可以通过考虑对原假设H1:theta;=theta;0与替代假设H1:theta;=theta;0进行测试的辅助问题来关联假设检验,对于任意但固定的值theta;0。这些数据可以说是与任何theta;0值兼容的!对于这个原假设,在给定的意义水平上不会被拒绝。因此,置信区间是非拒绝原假设的区间。观察置信区间的另一种方式如下。一个置信系数1-alpha;由研究人员确定(常规值为0.95)。
置信区间是一个具有较低边界L和上边界U的区间,根据数据计算,因此它们是随机变量,具有Lle;theta;le;U的概率,即,假设检验:方法论和限制区间包含 真实参数值至少为
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[462595],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。