王思斌社会学教程笔记 社会研究方法教程

2018-04-30
字体:
浏览:
文章简介:相关就是两组变量的线性组合的最大相关.应当指出的是,因为每个变量组都有多个变量,第一典型变量不能完全解释所有误差,故而还应做第二次组合,二次

相关就是两组变量的线性组合的最大相关。应当指出的是,因为每个变量组都有多个变量,第一典型变量不能完全解释所有误差,故而还应做第二次组合,

二次组合的准则是:(A)第二对典型变量 的相关 也是最强的。(B)第二个典型变量与第一个典型变量无关,即 。 由此可得第二个典型相关 。同理可得第三对典型变量和第三个典型相关 。

典型相关要求所有变量均为定距变量,典型相关系数值在0到1之间,其平方值具有消减误差比例的含义。显然,当两组变量中某一组变量的个数为1时,典型相关就是复相关。 当资料是由概率抽样调查获得的,则无论是偏相关系数、还是复相关系数或是典型相关系数均要进行假设检验。

果分析的一个过渡。多元方差分析与一元方差分析的原理一样,都是将总方差分为两部分:消减方差和剩余方差,通过计算F值和相关系数E的值来检验和测量定类变量对定距变量的作用。不同的是,多元方差分析定类变量的数目增多,因此分析内容较多。

将变量间的因果关系用一个或一组数学方程式表达出来。在社会研究中因果模型受到高度重视,主要原因在于它与实际估计模式参数的方法论结为一体,从而为人们提供一种以高度可读性因果图表去表述理论的手段。因果模型所用技术一般具有某种可对理论进行检验的、精确严格的假设式演绎方法。

最著名的因果模型是多元线性回归分析模型。此外还有路经分析模型和对数线性分析模型等。在这些模型中因果关系一般是某一特定时间内个体单位数兴建的一种非对称关系,而不是一定时间内有序时间的相互关系。

或多个自变量与一个因变量之间的线性关系的方法。所谓线性关系是指定量表达式的各项之间是可加的,所以这种表达式又叫做线性可加模型。 其中: 为y轴的截距。 为当 保持不变时, 变化一个单位, 的变化量。其他类推。 称为偏回归系数。 为当 一定取值时,随机变量y的平均数。

多元线性回归出要求自变量间的关系是线性可加的之外,还要求所有变量均为定距变量。和相关分析不同,不得将一组虚拟变量均引入回归方程,必须放弃其中一个虚拟变量,否则回归系数无解。

根据抽样数据建立的多元线性回归,必须经过F检验,以确认回归直线以及每一个自变量偏回归系数的建立。由于抽样误差的可能性不会大于给定的显著性水平 ,从而以最大的限度保证了所建多元直线方程和偏回归系数的可靠性。

在多元直线回归中,我们要计算复相关系数 ,即全部自变量与因变量的相关程度。决定系数 表示使用所确立的多元线性回归方程解释y时,所能减少的误差的比例,其值越大,表示多元回归对y的解释力越强。

决定系数是鉴别多元线性回归方程品质的一个非常重要的指标,如果决定系数过小,表示在所使用的回归方程中很可能遗漏了某些重要因素。在此情况下,不仅表示所选择的自变量意义不大,而且很可能破坏了使用多元线性回归的假定,从而使所求得的偏回归系数有误。但也不能由此采用相反的做法,即引进的自变量多多益善。实际上如果引进了许多与y无关的

变量或彼此间相关性很强的自变量,都会引起所求回归方程偏回归系数的失真或甚至无解。为了判别在多元线性回归中应引进哪些自变量,那些自变量更重要,从而应先引入方程,常采用逐步回归的方法。但是任何一种统计技术或计算机程序都是由人去操作运用的,他们不能代替人的思考。

只有当对现象的本质和内部联系有了一定的认识之后,才能考虑某种确定的统计工具。否则,轻率的选择某种统计工具,或者干脆靠计算技术出来代替分析,所的结论都是不可靠的,甚至是危险的。

多元线性回归除了适用于多个自变量的情况外,还适用于虽然自变量只有一个,但它与因变量的关系却是非线性的。例如: 即x与y的关系是一个多项式的关系。实际上,只要将 、 当作不同变量,就可以将上述多项式回归转化为k元线性回归。

回归分析不仅在横剖因果研究中得到广泛应用,同样在纵贯的时间系列分析中也有广泛的应用。把回归分析运用于社会分析时,还要注意因果联系中的滞后效应。

变量引入回归方程,而是逐步引入,若引入的自变量对因变量有显著影响,就将其保留;反之则将其去掉。这样,最后得到的回归方程之中只包含那些对因变量作用显著的自变量,而未引入回归方程的其余因素,增加任何一个对回归效果都没有显著的改进。

逐步回归的具体步骤是:

(A)确定有可能影响因变量y的自变量,假定在某项研究中我们确定了5个自变量 。

(B)计算每个自变量与y的皮尔森相关系数 ,然后从中选出与y相关性最强的自变量引入方程,假定 最大,则 应被引入回归方程:即

(C)逐一考虑其余变量 与已被选入回归方程的变量 对y的共同作用,即计算复相关系数,并从中选出相关最强的自变量进入回归方程,假若 最大,则 应被引入,得到二元线性回归方程: 。

(D)同第三步一样,逐一考虑其余变量与被选入变量对y的共同作用,再从中选出复相关最强的自变量进入回归方程,依此类推。在每引入一个自变量后,都须进行F检验,以确定引入后回归方程对于y的解释是否显著增加,若达到研究所要求的显著度,则保留该步中引入的变量,否则将其舍弃。

通过逐个引入自变量注册检验最后所得到的回归方程包含的都是对因变量作用显著的自变量,这些自变量的重要性与其被引入的次序相同,即最先引入的变量最重要,其次被引入的第二重要。显然,逐步回归中进入回归方程的自变量多个数多少与研究所要求的显著性水平有关。

逐步回归不仅可以从众多的自变量中找出一些最重要的自变量,从而使研究得以简化,而且当个自变量之间相关程度较高时,使用一般线性回归方程将会出现系数失真或无解情况,逐步回归通过自动的放弃一些变量,从而避免了上述问题。逐步回归可与一般回归混合使用。

层次因果关系的分析方法。与一般回归分析不同,路径分析不使用一个而是用一组线性回归方程刻画多个变量之间的关系,对于各因变量的分析不仅要分析其受直接作用力的大小,也要分析其受间接作用力的大小。此外,路径分析也不同于逐步回归分析,它不是寻找一个有效的因果模型,而是以一个有效的因果模型为出发点,这一因果模型其实是一个内容复杂的假设,然后用资料验证这一假设。