第5章方差分析第5章方 差 分 析本章学习目标 学习并掌握方差分析概念,进行方差分析的基本条件。 学习并掌握利用SAS和JMP进行单因素方差分析的方法,理解输出统计量的意义及判断依据。 学习并掌握利用SAS进行多因素方差分析的方法,理解方差分析输出统计量的意义及判断依据。 学习并掌握利用SAS进行协方差分析的方法,理解协方差分析输出统计量的意义及判断依据。
5.1方差分析简介[45]5.1.1方差分析基本概念方差分析是数理统计学中常用的数据分析方法之一,它是分析实验数据各因素各水平对某事物某指标的影响是否有显著差异的一种统计分析方法。根据实验考虑的因素个数及是否有协变量参与作用,可分为单因素、双因素、多因素方差分析及协方差分析。在方差分析中,经常把实验数据的总方差分解为由所考察因素引起的主因素方差、因素间的交互作用引起的交互因素方差和随机因素引起的随机误差方差。当影响因素是定性变量(一般称为分组变量或效应变量),观测结果是定量变量(一般称为结果变量或响应变量)时,常用的数据处理方法是: 假设响应变量均数或均值相等,从而检验响应变量受因素影响的效果是否有显著差异。若只有一个效应变量也称因素或因子,而且其水平数K=2,则称为单因素2水平方差分析,最常用t检验进行两两均值比较以检验对响应变量影响的效果是否产生显著差异。SAS系统的TTEST过程即可完全满足此类数据分析的需要。若实验中考虑单因素多水平,K3,或考虑两个或两个以上因素且多水平时(k2),则称多因素多水平方差分析,通常用多重比较的F检验。SAS系统的ANOVA和GLM过程可完全满足多因素多水平的多重比较的需要。F检验又叫方差齐性检验。从两个研究总体中随机抽取两组样本,要对这两组样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性,就要用F检验。F检验就是检验两组样本的方差是否有显著性差异,以确定它们的精密度是否存在差异,也就是确定两组数据之间是否存在系统误差。当不存在系统误差时,可进行t检验。正态性和方差齐性是进行方差分析的两个基本条件。当不能满足方差齐性的条件时,至今尚未找到十分满意的处理方法,仅能采用非参数检验法进行简单分析。尽管如此,由于方差分析适用的范围比较广泛,所以,它在假设检验中起到了举足轻重的作用。因此,弄清方差分析的基本思想,有助于读者尽快学会如何用方差分析法处理各种实验设计方案下的实验数据。方差分析的基本思想: 当实验数据满足正态性和方差相等(也称方差同质性)的假设条件时,把全部数据关于总均数的离差平方和分解成几部分,每一部分表示某一影响因素或诸影响因素之间的交互作用所产生的效应。将各部分均方(即方差)与误差均方相比较,依据F统计量做出统计推断,得到统计结论。1. 单因素试验的方差分析考虑一个因素A取a个水平,分析这a个不同水平对所考察的指标Y的影响,即在实验中只有A一种因素取a个水平变化,而其他因素控制不变,这样的实验叫单因素实验,所进行的方差分析叫单因素实验的方差分析。零假设: H0: 1=2==a备择假设: Ha: ij,至少有一对这样的i,j在Ai水平下的样本均值为: i.=1ninij=1xij样本数据的总平均值为: =1nai=1nij=1xij总离差平方和为: SST=ai=1nij=1xij-2总离差平方和可分解为: SST=ai=1nij=1xi.-2 ai=1nij=1xij-i.2 2ai=1nij=1i.-xij-i.其中,上式中的最后一项为0。若记: 因素A的离差平方和为: SSA=ai=1nij=1i.-2误差项的离差平方和为: SSe=ai=1nij=1xij-i.2则有: SST=SSA SSe(总变差=组间差异 组内差异)。SST是全部实验数据与总平均值之间的差异,称为总变差。SSA表示在Ai水平下的样本均值与总平均值之间的差异,叫因素A效应的离差平方和,也称组间差异。SSe表示在Ai水平下的样本值与该水平的样本均值之间的差异,它是由随机误差引起的,叫误差平方和,又称组内差异。SST的自由度为n-1。因为SSA与SSe相互独立,SSA的自由度fA为a-1(a为水平数),SSe的自由度fe为n-a。fT=fA feF=SSAfASSefe2. 双因素无交互作用的方差分析客观现实中的事物很复杂,影响某项指标的因素往往有很多,这些因素互相联系,互相依存,互相对立,问题也变得复杂多样。当只考虑两个因素的作用,且两因素间无交互作用时,我们进行组间变差和组内变差即误差的变差分析,叫双因素无交互作用实验方差分析。双因素无交互作用总离差平方和分解为: SST=ai=1bj=1i.-2 ai=1bj=1.j-2 ai=1bj=1xij-i.-.j 2SST=SSA SSB SSeSST的自由度为ab-1。因为SSA、SSB与SSe相互独立,SSA的自由度fA为a-1(a为A因素的水平数),SSB的自由度fB为b-1(b为B因素的水平数),SSe的自由度fe为(ab-1)-(a-1)-(b-1)=(a-1)(b-1)F1=SSAfASSefeF2=SSBfBSSefe3. 双因素有交互作用的方差分析SST=SSA SSB SSAB SSeSSe=SST-SSA-SSB-SSABSSA=bnai=1i..-2SSB=anbj=1.j.-2SSAB=nai=1bj=1ij.-i..-.j. 2SSe=ai=1bj=1nk=1xijk-ij.2SST的自由度为abn-1。因为SSA、SSB与SSe相互独立,SSA的自由度fA为a-1(a为A因素的水平数),SSB的自由度fB为b-1(b为B因素的水平数),SSAB的自由度fAB为(a-1)(b-1),SSe的自由度fe为(abn-1)-(a-1)-(b-1)-(a-1)(b-1)=ab(n-1)F1=SSAfASSefeF2=SSBfBSSefeFAB=SSABfABSSefe4. 多因素有交互作用的方差分析方差分解SST=SSA SSB SSC SSAB SSAC SSBC SSABC SSe5. 多重比较在三个或多个均值之间做两个或多个均值比较的检验称为多重比较(Multiple Comparison Procedure)。在引入假设概念时,曾把选择水平与做出错误判断的风险相联系。为了理解多重比较方法,需要控制所有比较的总错判的机会(当均值相同时判断为不同的错误),也要控制每个单独比较的错判机会,因此分为实验比较错误率和比较错误率两大类,实验比较错误率MEER相对比较错误率CER更精确、更严格。例如,有5种施肥方法,均值做两两比较共有10种组合,如要控制10种比较的总错判率在水平,平均到每组比较的控制水平会在十分之一的水平,这就称为控制实验比较错误率或称控制对整个实验的总错判机会,记为实验比较错误率(Means Experimentwise Error Rate,MEER)。另一种,如果想对10种比较中的每一种进行单独控制比较错判机会在水平,就称为控制比较错误率,或称对每一个比较的单独错判机会,记为比较错误率(Comparisonwise Error Rate,CER)。以上例为例,每一种两两比较分别进行水平CER的控制,则10种两两比较合计则为10倍的水平,相对MEER而言则每种比较的错判率会扩大10倍。因此在进行多重比较时,采用MEER方法进行比较会比CER方法比较要严谨得多。在进行多重比较时,应采用两类方法进行比较,若MEER方法能够得到较好的结论,一定以MEER法的结论作为研究结论。若MEER法比较均值无显著差异,可采用CER法进行比较,可用CER法的结论作为研究结论。对于多因素,由于多因素的影响及各因素间的交互作用相当复杂,为了获得最好的实验结论,通常优先使用MEER实验比较错误率作为控制准则,其次可选用CER比较错误率。SAS软件在GLM方差分析过程中提供了多种MEER法和多种CER法,两大类中的各种方法都有其特点,选用时应分清各种方法的优势,合理使用。5.1.2方差的同质性检验[2]1. 方差检验的基本思路方差检验的基本思路是: 利用样本方差建立一个统计量,并为这个总体方差的统计量构造一个置信区间,这个置信区间的显著水平为,区间中包括总体方差的概率是1-。在确定的水平下,统计量有其固定的拒绝区域。单尾检验中,拒绝区域分布在统计量分布曲线的一侧;双尾检验中,拒绝区域分布在统计量分布曲线的两侧。如果检验统计量大于或等于临界值而落入拒绝区域,或P值小于显著水平而落入拒绝区域,便可以拒绝零假设;反之,则不能拒绝零假设。2. 方差同质性检验过程1 提出零假设H0和备择假设Ha:H0: 2=20Ha: 2202 构造检验统计量: 2=n-1s22~2n-1在H0成立的条件下,统计量2服从自由度为n-1的2分布。或构造F统计量: F=s21s22在H0成立的条件下,统计量F服从自由度为n1和n2的F分布。3 确定显著水平(通常取0.05)。4 规定决策规则。双尾检验时,拒绝区域在两侧,如果检验统计量大于右侧临界值或小于左侧临界值,则拒绝零假设。若是单尾检验,拒绝区域分布在一侧,具体选择左侧还是右侧,可根据备择假设Ha的情况而定。5 进行判断决策。所谓方差的同质性(也称方差齐性),就是指各个总体的方差是相同的。方差的同质性检验就是要从各样本的方差来推断其总体方差是否相同。3. 两组样本方差的同质性检验假设两组样本的样本容量分别为n1和n2,方差分别是s21和s22(一般将方差数值较大的样本方差记为s21),总体方差分别为21和22。当检验两个总体方差21和22是否同质时,可用F检验法。当两样本所属总体服从正态分布,且两组样本的抽样是随机和独立的时,其F值等于两组样本方差s12和s22之比,即F=s21s22,并服从df1=n1-1,df2=n2-1的F分布。当FF时,否定H0: 12=22,接受Ha: 1222,即认为两组样本方差不同质。Var=s2=1n-1ni=1xi-2=SSn-1=SSdf4. 多组样本方差的同质性检验对三组或三组以上样本方差进行同质性检验,一般采用Bartlett检验方法。假设H0: 12=22==k2,即k组样本的方差同质。Ha: 1222k2,不完全相等。对k组独立样本方差,求其合并方差sp2,矫正数C和2: s2p=ki=1s2ini-1ki=1ni-1C=1 13k-1ki=11ni-1-1ki=1ni-12=2.3026Clgs2pki=1ni-1-ki=1ni-1lgs2i上式服从df=k-1的2分布。其中,2.3026=ln10。对确定的显著水平,如果202,则否定H0,接受Ha: 1222k2(至少有一组方差不等),表明这些样本方差不同质。5.1.3方差分析的基本假定和数据转换[2]1. 方差分析的基本假定对实验数据进行方差分析前提条件是数据符合正态性和方差同质性,如果分析的数据不符合这两条基本假定,则不能采用方差分析。1 正态性: 实验误差应是服从正态分布的独立的随机变量。因为方差分析只能估计随机误差,顺序排列或顺序取样资料不能使用方差分析。正态分布要求每一个观测值xij应围绕其平均数呈正态分布,非正态分布的原始数据资料经过适当的数据转换后,若近似服从正态分布,也可对转换的变量进行方差分析。2 可加性: 处理效应与误差效应应该是可加的,并服从方差分析的数学模型,即xij= i ij,这样才能将实验的总变异分解为各因素引起的变异,以确定各变异在总变异中所占的比例,对实验结果做出客观评价。3 方差同质性: 所有实验数据的方差应具备同质性,也称方差齐性,即21=22==2n。因为方差分析是将各个处理的实验误差合并以得到一个共同误差的方差,所以必须假定资料中有这样一个共同方差存在。方差异质将使假设检验中某些处理效应得出不正确的结果。如果发现方差不同质的现象,可将变异性特别明显的数据剔除。当然剔除数据时应十分小心,以免失掉某些重要信息。或者将实验分成几个部分进行分析,使每个部分满足方差同质性,满足假定条件,以进行方差分析。2. 数据转换有时遇到的样本,其所来自的总体和上面提到的方差分析基本假定相抵触,这些数据在做方差分析之前必须经过适当的处理,如进行相应的数据转换。有时样本的非正态性、不可加性和方差的异质性通常连带出现,这类数据分析时主要考虑处理效应与误差效应的可加性,其次考虑方差的同质性。常用的简单数据转换方法如下。1 平方根转换有些观测数据为泊松分布而非正态分布,比如一定面积上某种杂草株数或昆虫头数等,样本平均数与其方差有比例关系,采用平方根转换可获得方差同质性。一般将原观测值转换成x,数据较小时采用x 1。例如,表51中所列的一定面积燕麦田中某杂草的株数。从直观上看,A1、A2和A3、A4及A5间的数据相差太大,方差同质性不成立。表51燕麦田中某种杂草的株数处理A1A2A3A4A51438.00 538.00 77.00 17.00 18.00 2442.00 422.00 61.00 31.00 26.00 3319.00 377.00 151.00 87.00 77.00 4380.00 315.00 52.00 16.00 20.00 x-i395.00 413.00 87.00 38.00 35.00 对表51资料,如果计算出误差项的方差,它可能是个平均值,用以检验A1、A2间差数则太小,用来检验A3、A4和A5间的差数则太大。如把表中数据进行平方根转换(如表52所示),可以看出各处理资料的范围就相差不多了。对表52中数据做方差分析,列入表53。表52燕麦田中某种杂草株数的平方根处理A1A2A3A4A51 20.90 23.20 8.80 4.10 4.20 221.00 20.50 7.80 5.60 5.10 317.90 19.40 12.30 9.30 8.80 419.50 17.70 7.20 4.00 4.50 x-i19.80 20.20 9.00 5.80 5.70 表53表52资料的方差分析表变 异 来 源dfsss2FF0.05F0.01处理误差时间415866.66369.995216.6664.66746.4253.064.89总变异19936.6582 对数转换如果已知资料中的效应成比例而不是可加的,或者标准差(或极差)与平均数大体成比例时,可以使用对数转换。以下数据是在5次三个相继的夜里捕获昆虫的几何平均数,实验采用三种捕蛾灯诱捕(见表54)。表54捕获昆虫统计及捕获数的对数值时期捕蛾灯对数值ⅠⅡⅢⅠⅡⅢ1234519.123.439.523.416.650.1166.0223.958.964.6123.0407.4398.1229.1251.21.281.371.601.371.221.702.222.351.771.812.092.612.602.362.40i22.4112.7281.81.371.972.41极差22.9173.8284.40.380.650.52原来的平均数和极差近于正比关系,经对数转换后三个极差较为接近,且与平均数无关。将转换后的数据进行方差分析(见表55)。表55对数转换后的数据的方差分析表变异来源dfSSs2FF0.05F0.01时期间捕蛾灯误差4280.49412.75030.11590.12351.37520.01458.5294.843.844.467.018.65总变异143.3603用LSD法比较三种捕蛾灯之间的差异,证明不同捕蛾灯之间有显著差异。3 反正弦转换如果数据是以比例数或以百分率表示的,其分布趋向于二项分布,方差分析时应做反正弦转换,用下面的公式把它们转换成一个相应的角度: =sin-1P式中,P为百分数资料,为相应的角度值。5.2ANOVA过程和GLM过程简介[45]5.2.1ANOVA过程SAS软件有两个过程步: ANOVA和GLM可进行各种方差分析,每个过程步通过不同的选项为用户提供了不同的均值比较方法。ANOVA过程主要用于处理均衡设计(即对于每个因素、每个水平的观测数是相等的,另外还可以处理拉丁方设计、正交设计等)的一元、多元方差分析,也可用于多个变量的对比检验。实验设计如果不均衡,建议使用GLM过程。ANOVA过程和GLM过程最后需用QUIT语句退出。1. ANOVA过程语句格式PROCANOVA选择项1;CLASS变量;MODEL因变量=效应变量选择项2;MANOVAH=效应变量 E=效应变量;BY 变量;MEANS效应变量选择项3;RUN; Quit;2. 选择项11 DATA=SAS数据集名。2 MANOVA: 要求PROC ANOVA按多元方式删除那些含有丢失值的观测,即只要在因变量中有丢失值,就在分析中删除这条观测。3 OUTSTAT=SAS数据集: 定义一个输出数据集,其中含有平方和,F统计量以及模型中每个效应的概率水平。如果在MANOVA语句中指定了CANONICAL选择项,且没有M=选择项,数据集中还含有典型分析的一些结果。3. CLASS语句在方差分析中,区分分类水平的变量叫分类变量,分类变量必须在CLASS语句中说明。CLASS语句中的变量取值个数叫水平数。分类变量的取值可以是数值型,也可以是字符型,但所表示的意义都是不同水平,而因变量Y则必须是连续型的数值型变量。4. MODEL语句MODEL语句用来指明效应变量和响应变量间的关系。如果没有指明效应,则ANOVA只拟合截距项,也只检验效应变量是否为0。MODEL语句斜杠()后的选择项2:1 INT | INTERCEPT: 要求ANOVA过程把截距项作为一个效应进行处理,打印出与其有关的假设检验结果。ANOVA过程在模型拟合时总是含有截距,但是,当这个选项省略时,不输出与其有关的假设检验结果。当不考虑模型中的截距项的效应时,可以用NOINT选项去掉截距项。2 NOINT: 不考虑模型中的截距项的效应。3 NOUNI: 不输出单变量分析结果。5. MANOVA 语句如果MODEL语句中含有多于一个的响应变量,就可以使用MANOVA语句要求进行多元方差分析。使用了MANOVA语句之后,如果某一个观测自变量或效应变量中有丢失值,则在方差分析中删除这条观测。1 H=效应变量: 指定模型中一些效应作为假设检验的矩阵。对于每一个H矩阵,H=选择项打印出E-1H的特征根及特征向量(其中,E是和误差效应相关的矩阵)等。2 E=效应变量: 规定该变量为误差效应,如果省略,则使用误差SSCP(残差)矩阵。6. MEANS语句中的选择项3用来计算MEANS语句中列出的每个效应所对应的因变量各水平的均值及均值间的显著性。1 Hovtest: 方差同质性检验。仅针对单因素进行方差同质性检验,或称等方差检验。选择项3提供了多种均值比较的MEER法和CER法。2 MEER法有: BON、REGWQ、SNK、GABRIEL。① BON: 对于MEANS语句中的主效应均值之差进行Bonferroni的t检验,控制实验错误率MEER,就是把每个检验的水平取小一些进行多重t检验。对整个实验选一个水平,然后除以两两比较的检验次数。如要进行10次两两检验,而将MEER控制在0.05水平,则每次检验需控制在0.005水平。② REGWQ: 对于MEANS语句中的所有主效应进行多重F检验。REGWQ检验控制MEER。BON和t检验都用到了比较每一对均值的检验,而REGWQ检验是一种多级检验。它先检验所有N个均值间的差异,再对N-1个均值的各集合进行检验,再对N-2个各集合进行检验,以此类推。③ SNK: 对MEANS语句中指定的全部主效应执行StudentNewmanKeuls组间多重比较。④ GABRIEL: 对于MEANS语句中的所有主效应进行Gabriel多重对比检验。3 CER法有: DONCAN、T|LSD、DUNNETT、DUNNETTL、DUNNETTU。① DONCAN: 对MEANS语句中指定的全部效应执行组间多重比较的Duncans检验。② T | LSD: 对MEANS语句中的所有主效应进行两两t检验,相当于在单元观测数相等时的Fishers检验。用重复t检验控制CER(比较错误率),每对做一次,控制每对检验的比较错误率CER。③ DUNNETT: 对MEANS语句中指定的全部效应执行各组与对照组间多重比较的双尾Dunnetts t检验。如果要指定对照组所对应的(分组)变量水平,将该水平所对应的格式化变量值以单引号括起置于选项后的圆括号中。如果要为多个主效应指定对照组,将各效应之对照组所对应的变量值(先以单引号括起)以空格分隔置于选项后的圆括号中。默认情况下,各效应的第一个水平将被作为对照组使用。例如:MEANSADUNNETT (''A1'');其中,''A1''是A效应的对照组取值。
|