英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
用模拟揭示中心极限定理在处理非正态分布中的作用
Moatasim A. Barri
American Journal of Educational Research, vol. 7, no. 8 (2019): 591-598
摘 要
本模拟使用了一个编译器来解释处理非正态分布的总体时,中心极限定理所起到的作用。我们模拟了一组容量为1万个数据点的总体,它们分别呈均匀分布、低峰正态分布、正偏指数分布、负偏三角形分布和双峰分布五种分布;并从每个总体中抽取了3个容量为500的抽样分布。所有的总体和样本分布都用直方图来表示,并以平均值和标准差进行分析。结果验证了中心极限定理的基本原理,并且表明当总体接近正态分布时,需要缩小样本容量才能适用中心极限定理;而如果总体与正态分布差别较大,则需要较大的样本容量。本文根据模拟结果提出了样本容量与总体大小之比例,并讨论了进一步的研究及其可能的结果。
关键词 中心极限定理;抽样分布;正态分布;非正态分布
1 绪论
世界上的人们生来就有不同的身高和体宽。假设数以亿计的男性和女性聚集在一个地方,比如美国,我们不可能预先知道从中选出的某个个体的身高是多少。显然,我们需要一些方法来清晰、方便地概括出所有美国人的身高。统计学便能实现这一点。
当研究人员试图回答类似“美国人真正的平均身高是多少”的问题时,统计学的重要性就体现出来了。回答该问题的第一步,是要收集有关美国人身高的数据。然而是不是所有的美国人都要考虑进去才能得到他们真正的平均身高呢?要把所有的美国人都叫到一处排成队,然后用完美无误差的方法测量他们的身高,这几乎是不可能的。所以,一个实际的解决办法是从所有美国人这一总体中随机选取一个代表性的样本,获取该样本中所有个体的身高数据。该总体必须清楚列明,否则将很难从中抽取样本。
数据收集完毕以后,第二步便是选定一个合适的量数来描述美国人的身高。我们有许多量数可供选择,比如平均值、中位数、众数等。它们的计算方法不同,从不同的角度解释数据,并且可以用数值来表示平均身高。在这些量数中,我们将选择平均值,因为它是最好也是应用最广泛的量数之一。
样本均值通常用来估计总体均值。当样本均值的期望值与总体均值相近时,研究人员就可以根据样本归纳出总体。这就是推论统计的基本作用。统计量这一术语通常用来描述样本,而参数这一术语通常用来描述总体。由于参数的确切值往往是未知的,所以我们几乎总是需要用到统计量。尤其是当总体容量巨大的时候——如美国人口——我们根本无法对所有的测量对象都进行完美无误差的测量。
研究人员如何保证某个样本的均值与下一个样本的均值相同?假如研究人员随机选取了两个样本计算它们的均值,那么他们可能会发现第二个样本的均值与第一个显著不同。随机抽样有时就是会产生无法预料的结果,即使我们的操作完全无误。这是由其根本性质所决定的。两个样本的均值不同,可能是因为第一个样本主要由高个子的个体组成而第二个样本主要由矮个子的个体组成。为了避免样本均值的这种变异,研究者们必须肯定中心极限定理。该定理要求在选择样本时使用大数定律。一个容量相当大的样本不可能只由高个子或者只由矮个子组成。例如,将一枚硬币抛一千次,出现正面的次数将约为50%,而如果只抛三次,那么出现正面的次数可能永远也不会为50%。
然而,研究人员如何保证一个随机大样本的均值接近总体均值呢?基于中心极限定理,研究者们可以确信,任意一个从总体中随机抽取的容量相当大的样本,其均值都接近该总体的真正均值。中心极限定理是根据集中趋势、变化特点和分布形状来确定均值的抽样分布的性质的。均值的抽样分布是指从给定总体中随机抽取的所有大小相等的可能样本之均值的频率分布。抽样分布的所有重要性质都可以用中心极限定理来概括。根据参考文献[7],抽样分布具有以下性质:第一,抽样分布的均值总是与总体均值相等;第二,抽样分布的变异也往往小于总体;第三,抽样分布的形状一开始看起来很像正态分布,即使其总体并非正态分布。样本容量的任何变化都会导致均值的抽样分布的形状变化。为了使抽样分布呈正态分布,并且其均值接近总体的真正均值,样本容量与总体大小的比例应该如何?
研究中最常见的问题之一是有效样本容量的计算。样本容量越大,研究结果越准确。根据有效样本容量得出的结论是正确的,而根据不适当的样本容量得出的结论则是存疑的。我们的这个模拟利用了编译器。本模拟有着双重的目的:第一,具体地揭示中心极限定理在处理非正态总体中的作用;第二,提出样本容量与总体大小之比,以达到无论总体分布与正态分布的差别多大,均能适用中心极限定理之目的。
2 分布
2.1 正态分布
正态分布的数学曲线通常为钟形,这是其特征(如图1)。曲线围绕均值对称,并且永远不会与横坐标轴接触。正态分布的均值、众数、中位数都是相同的,都位于分布的对称中心。
正态分布由两个量数决定:一是单峰分布中的均值,二是表明整个分布的离散程度的标准差。这意味着,当均值和标准差的值不同时,会产生下列几种不同形状的正态分布:
(1)趋于平缓的扁平低峰(如图2A);
(2)趋于高点的瘦高峰(如图2B);
(3)介于以上两者之间的常峰,如图2C。
尽管钟形曲线的形态有很多,但它们都具有一些统一的特征,包括:
(1)单峰性,即有且只有一个恰好位于分布中心的众数;
(2)对称性,对称轴垂直于水平数轴,并且恰好过分布中心那一点;
(3)均值、众数、中位数等描述性统计量相等,均落在正态分布的中心位置;
(4)渐近线,正态分布无限接近于横坐标轴,但永不接触。
正态分布的概率密度函数为
其中P(x)为分布在任意x值处的高度,x为观测到的分数,?为分布的标准差,?为分布的均值。
均值为0,标准差为1的正态分布通常被称为标准正态分布(如图3),标准正态分布的概率密度函数为
2.2 偏态分布
其中一个尾部比另一个尾部长的分布,称为偏态分布。如果长尾位于右侧,则该分布为正偏态,有时也称为右偏态(如图4A),这意味着该分布中的大多数值都有向左的去势。当学生们参加一项非常困难的测试时,他们中的大多数人都做得很差,他们在测试中的分数就很可能遵循一个正偏态分布。如果分布的长尾位于左侧,则此情况下的分布为负偏态,有时也称为左偏态(如图4B),这意味着数据中的大多数值都有向右的趋势。当学生们参加一个非常简单的测试,其中大多数人都做得很好,他们的测试分数很可能遵循一个负偏态分布。
平均值、中位数和众数等集中量数会受到分布偏态的影响。在负偏态分布中,均值小于中位数,中位数又小于众数。如果分布向右倾斜,则均值大于中位数,中位数又大于众数。没有图形时,可以通过求得数据的均值和中位数,并利用下面两条规则来判断数据是正偏态还是负偏态:第一,如果均值远大于中位数,则数据向右倾斜,呈正偏态;第二,如果均值远小于中位数,则数据向左倾斜,呈负偏态。
偏态分布有很多种,包括三角形分布和指数分布,我们接下来将简单解释这两种分布。
2.2.1 指数分布
指数分布为正偏态分布,如图5所示。其概率密度函数为
其中?为将图形简单转化为横坐标轴上的左右的位置参数,?为将图形展开的尺度参数。若? = 0,? = 1,则当x gt; 0时,P(X) = e-x。例如,图5中所示的是一个? = 0,? = 1的指数分布的概率密度函数。
2.2.2 三角形分布
三角形分布为连续型分布,概率密度函数的曲线呈三角形(如图6A和图6B),定义如下:
其中a为最小值,b为最大值,cisin;[a, b],且c为峰值(众数)。在c点,概率密度函数的值最大,为。例如,图6A和图6B中所示的分别是当a = 0,b = 10时,三角形分布的概率密度函数,以及其在c = 9.5(图6A)和c = 0.5(图6B)处的最大值。
2.3 均匀分布
均匀分布是这样一种分布,即在由最大值和最小值所定义的范围之内,其任何值出现的概率都是相等的(如图7)。矩形分布是分布非正态的标志。
均匀分布的概率密度函数为
其中a为最大值,b为最小值(如图8)。
2.4 多峰分布
具有多个众数的分布称为多峰分布。如果有两个众数或者两个相对峰,则称为双峰(如图9A)。如果有三个众数或者有三个相对峰,则称为三峰(如图9B)。多峰性是分布非正态的重要标志。多峰表明该分布是异质的,这意味着它实际上是由两个或两个以上有共同之处的分布派生出来的。
3 中心极限定理的优点
事实上,从总体中收集所有数据并不是一个好办法,所以我们用统计学的方法,通过在总体中随机抽样,然后根据样本来推断总体的特征。然而,如果总体本身不是正态分布,那么会怎么样?即使总体是正态分布,你又怎么保证不同样本的均值不会发生变化?要回答这些问题,你必须将中心极限定理奉为圭臬,即要从总体中抽取大量随机样本,并计算每个样本的均值。这就产生了样本均值的分布,在大多数情况下,样本均值的分布遵循正态曲线,从而证实了从总体中抽取的任何样本的均值都接近总体的真正均值。
如参考文献[5]之所述,中心极限定理包含以下三个原则:
(1)随着样本量的增加,即使总体本身并不是正态分布,抽样分布也越来越趋于正态分布。
(2)无论总体分布如何,抽样分布的变化(以标准差来衡量)随样本量的增加而减小。
(3)无论总体分布和样本容量如何,抽样分布的均值总是等于这些样本所在总体的均值。
4 方法
本模拟本质上是定量的,并且使用了一个基于Fortan-95语言的编译器来生成和分析数据。
4.1 中心极限定理编译器
该编译器由笔者用FTN95: Fortan-95编写,一是用来证实中心极限定理所依据的原理,二是用来提出样本容量与总体大小之比,以达到无论总体分布与正态分布的差别多大,均能适用中心极限定理之目的。该编译器根据正态分布、负偏三角形分布、正偏三角形分布、均匀分布、指数分布、双峰分布、多峰分布等多种分布方式生成数据,创建直方图,计算分布的均值、标准差、最大值和最小值。
4.2 数据生成的基本代码
我们接下来将解读一下根据给定的分布生成大量随机数据点的基本样式代码。
4.2.1 正态分布代码
生成正态分布的基本样式代码如下:
r = Sqrt((-2) * Log(u1)) * Sin(2 * pi; * u2)
r = ? r * ?
其中u1和u2为随机实数,?、?分别为均值和标准差,均值和标准差均为常数。
4.2.2 均匀分布代码
生成均匀分布的基本样式代码如下:
r = min u * (max – min)
其中u为随机实数,min和max分别为均匀分布的下界和上界,下界和上界均为常数。
4.3.3 三角形分布代码
生成三角形分布的基本样式代码如下:
If (u lt;= (mode-min)/(max-min)) Then
r = min sqrt (u * (max-min) * (mode-min))
Else If (u gt; (mode-min)/(max-min)) then
r = max – sqrt ((1-u) *(max-min)*(max-mode))
End If
其中max和min分别为三角形分布的上界和下界,它们均为常数,u为随机实数,mode为三角形分布的众数,通常由我们主动设置,并根据以下规则决定分布是正偏态还是负偏态:
(1)如果mode值等于或接近最小值,则代码将生成一个正偏态分布。
(2)如果mode值等于或接近最大值,则代码将生成一个负偏态分布。
4.2.4 指数分布代码
下面的代码用于生成指数分布:
r = -? * ? * log(u)
其中?为位置参数,?为尺度参数,u为随机正实数。
4.2.5 多峰分布代码
前面给出的按照正态分布生成随机数据点的基本代码运行两次,就可以生成双峰分布,运行多次,就可以生成多峰分布。每次运行代码时,至少均值这一量数必须不同。
4.3 测试条件
为了解释中心极限定理如何应用,我们要用中心极限定理编译器来模拟一组容量为1万个数据点的总体,并抽取容量分别为2,10和30的抽样
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[409467],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。