发布信息

SPSS 软件教程:常用功能与操作步骤全解析,数据处理分析不再难

作者:软荐小编      2024-09-04 09:01:36     275

首先我给你们讲一个笑话。

SPSS软件在数据处理分析中应用非常广泛,适合各类学习群体。即使学习者不懂编程,也能使用SPSS软件处理数据、建立模型。下面总结了SPSS软件中一些比较常用的功能和操作步骤,都是很有用的资料!

1.熟悉变量窗口、数据窗口

数据窗口是我们打开SPSS时显示的窗口,主要用于录入相关数据,其页面上有相关的操作栏项,可以利用这些操作栏项对数据进行具体的分析,如下图所示:

变量窗口是对数据变量做相应修改和调整的窗口,包括数据名称、类型、宽度、小数位、标签、度量等。

spss左下方有变量窗口和数据窗口之间的转换按钮,可以选择不同的窗口进行操作:

2.学习数据输入

输入数据有两种方式:一种是手动输入数据,一种是使用现有的 Excel 数据输入数据。手动输入比较简单,只需在数据窗口中输入要使用的数据,然后点击左下角的变量窗口,相应调整数据属性即可。使用现有数据和输入数据时,要注意以下问题:

首先数据是按列排序的,也就是每一列代表一种类型的数据。如果你的数据是每一行代表一种类型,那么你需要对你的数据进行转置。

例如我们输入以下数据:

然后在spss窗口中点击“文件”--“打开”--“数据”

选择要输入的数据,会弹出类似这样的页面。注意必须勾选该框。

初始测试数据录入之后效果如下:

我们可以点击变量窗口,进行相关的调整,让数据看起来更加美观,比如统一小数位数,调整数据所在行的宽度等等,结果如下:

3.数据管理

这个很简单,一些相关的参考书主要讲的是数据的纵横合并,数据的拆分,数据的汇总,数据的加权,数据的查找,这些都是很简单的,比较有意思的应该是数据的汇总和加权,数据可以通过均值,中位数spss是什么软件,总和,标准差等标准来汇总,数据加权则是通过“数据”—“加权案例”来实现的。

4.统计描述分析

使用SPSS进行统计描述分析主要有三个部分:一是频数分布描述;一是描述性统计分析;一是探索性分析。

首先说一下频率分布:频率分布用于描述数据的集中趋势和分散性,通过频率分布图、条形图、柱状图等更形象的说明数据的分布特征。步骤为:“分析”--“描述统计”--“频率”,通过对应程序的操作,假设输入以下数据:

软件是怎么开发出来的_spss是什么软件_软件是什么

运行频率分布描述的spss步骤,并进行相关设置:

软件是怎么开发出来的_spss是什么软件_软件是什么

软件是怎么开发出来的_软件是什么_spss是什么软件

结果如下:

上图体现了这些输入数据的均值,中位数,众数等特征。

上图体现的是频率的情况,可以清楚的看到每个模型都有一个频率。

软件是怎么开发出来的_软件是什么_spss是什么软件

最后得到如上所示的直方图。

然后我们来说说描述统计分布。命令是:“分析”--“描述统计”--“描述”。这个主要是用来计算描述集中趋势和分散趋势的各种统计量。(另外还有一个重要的函数就是进行标准化变换,也就是Z变换)。这个其实跟上面的频率分布差不多,都是用来把数字的特征系统化。

例如,我输入了以下数据并进行了描述性分析:

软件是怎么开发出来的_软件是什么_spss是什么软件

运行之后最终结果如下:

(确实就是各种统计数据,比如最大值,最小值,标准差等等)

最后,本节的最后一部分,探索性分析,是在对数据有一定了解的基础上,对数据进行更加深入的分析(你可以理解为通过这种方法制作出来的图形看起来更加牛逼)

比如我还是用一些数据来操作:

软件是怎么开发出来的_软件是什么_spss是什么软件

spss的命令为:“分析”--“描述统计”--“探索”。操作如下:

spss是什么软件_软件是什么_软件是怎么开发出来的

最终结果是:

以上当然是简单的数据描述。

还设有分为“北”和“南”的描述。

你也可以得到这样的图片:

spss是什么软件_软件是什么_软件是怎么开发出来的

它还可以生成茎叶图和其他图形。

在前面的操作中,我们从输出窗口可以看到代码,其实这就是SPSS的运行代码,是系统自动生成的,如果你用SPSS建模写作的话,这些代码可以复制到你论文的附录里,例如:

spss是什么软件_软件是什么_软件是怎么开发出来的

5. 均值检验

均值检验又叫均值检验,很好理解,就是求数值的平均值的过程。SPSS里的命令是“分析”-“比较均值”-“平均值”。这个比较简单易懂,就不举例了。

软件是什么_spss是什么软件_软件是怎么开发出来的

这个比较均值窗口包括单样本T检验、独立样本T检验、配对样本T检验和单变量分析,这些内容其实都差不多,你可以输入数据,然后试着输出结果。总结一下:你需要在输出结果中看到sig值,也就是我们所说的P值,如果这个值小于0.05(显著性一般取0.05),那么就说明两个数据个体之间存在差异。你也可以从概率的角度去理解(如果p值小于显著性水平,那么就要拒绝原假设,认为样本之间存在差异)。当然我们也可以对这些概率进行区分:

单样本T检验的目的是利用一个总体的样本数据来推断该总体的均值是否与指定的检验值有显著差异。

独立样本T检验的目的是利用两个总体的两个独立样本来推断两个总体的均值是否不同。

匹配样本T检验的目的是利用来自两个不同总体的配对样本来推断两个总体的均值之间是否存在差异。

其实就是分析两个东西的区别,从输出结果来看怎么样,其实只要抓住P值进行分析就可以了。

6.方差分析

比较两组数据的均值时,可以采用T检验。当组数大于等于3时,应采用方差分析。方差分析的原理这里就不再赘述了。在进行方差分析时,一定要学会通过LSD方法看出组间差异。

具体命令:“分析”-“比较均值”-“单因素方差分析”

在设置对话框中选择LSD方法,并从输出结果中进行分析。

例如,有三组公司及其相应的寿命:

spss是什么软件_软件是怎么开发出来的_软件是什么

spss是什么软件_软件是什么_软件是怎么开发出来的

采用单因素方差分析,选择LSD进行手术

结果如下:

从上表可以看出,显著性水平为0.05。如果两组的显著性水平大于0.05,则接受原假设,认为两组之间没有差异。从上表可以看出,第1组和第3组之间没有差异,第1组和第2组的组合有差异,第2组和第3组的组合也有差异。

7.使用spss进行绘图

绘图是一项重要的技能,用SPSS绘图简单快捷,只需要选中数据,然后点击要绘制的图形格式即可。

软件是怎么开发出来的_软件是什么_spss是什么软件

当然,绘图的时候需要数据窗口有数据,你可以自己实验一下。

假设我们要画一个以时间为横轴,以GDP为纵轴的二维柱状图,可以进行如下操作,得到以下结果:

当然,在第二条绘图指令中,还可以进行如下操作:

软件是什么_软件是怎么开发出来的_spss是什么软件

选择几个变量,就会得到相应维数的图表。(最多可以构建三维)

在绘图中,点击“旧对话框”将显示以下内容:

同样,你可以根据自己的需要绘制图形。

8.缺失值分析

这个理解起来很简单,在数据收集的过程中,可能会出现缺失数据的情况,缺失数据会对我们的处理结果造成一定的影响,利用SPSS软件对缺失值进行处理,使得我们分析的相关结果更加合理。

处理缺失值的方法有很多,包括直接删除或者用其他数据替换,也可以用EM或者回归方法从非缺失数据的分布中推断出缺失数据的估计值。《分析》——《缺失值分析》

首先,我故意掏空了之前的GDP数据,创建缺失数据,方便分析:

软件是怎么开发出来的_spss是什么软件_软件是什么

我们主要挖出了三个缺口,然后利用SPSS缺失值分析中的EM对缺失数据进行处理,得到了下图:

spss是什么软件_软件是怎么开发出来的_软件是什么

这样就完成了缺失值的处理,当然也可以使用回归的方法。

软件是怎么开发出来的_spss是什么软件_软件是什么

9. 简单线性回归和相关性分析

先说相关性,相关性用r来表示,r值为正表示正相关,r值为负表示负相关,r的绝对值越大表示相关性越强,可以用Spearman等级相关系数来查看相关程度。

例如:利用下面的数据做相关性分析,建立回归模型。

当然,Kendall和Pearson相关系数也可以表达相关性,它们类似。

这个皮尔逊相关系数(等于0.971)表明这两个变量高度相关!

软件是什么_spss是什么软件_软件是怎么开发出来的

得到的spearman系数和kendall系数也接近于1,说明两个变量之间存在正相关性。然后利用回归方法确定模型:

按下图进行相关设置:

运行结果如下:

软件是怎么开发出来的_软件是什么_spss是什么软件

根据上表,我们的回归模型为:(设患病率为Y,碘含量为X)

Y=17.484+4.459X。

软件是什么_软件是怎么开发出来的_spss是什么软件

10.逻辑回归模型

如果要分析的数据是分类变量,那么可以使用逻辑回归模型来分析数据。首先我们来谈谈二项分类的逻辑回归。该模型的方程为:

P=1/(1+EXP(-b0+b1x1+b2x2+...+bnxn))

通过SPSS确定上式的系数,即可确定模型。

软件是什么_软件是怎么开发出来的_spss是什么软件

例如:

查看变量窗口:

y代表康复情况,y=0代表未康复,y=1代表康复,x1代表病情严重程度,x1=0代表病情不严重,x1=1代表病情严重。x2代表治疗,x2=0代表新治疗,x2=1代表旧治疗。

并进行如下设置:

软件是什么_spss是什么软件_软件是怎么开发出来的

结果是:

软件是怎么开发出来的_软件是什么_spss是什么软件

从上表我们可以得到二元逻辑回归模型为:

P(Y=1)=1/(1+EXP(-0.928-0.909X1-1.669X2))

也就是说,治疗方法的新颖性对康复情况有影响,治疗方法比较新颖,康复的概率会比较高。

当然,除了二项逻辑回归之外,还有有序逻辑回归,条件逻辑回归等等,方法都类似。

方法摘要:对于这部分逻辑回归方程,首先需要确定要使用哪一类逻辑回归模型,然后为模型求出一个表达式,再用SPSS软件求出系数,将系数代入表达式中,即可构建模型。例如,上面确定了二项逻辑回归的表达式:

通过SPSS确定系数后spss是什么软件,代入表达式,得到模型。

11.聚类方法

物以类聚,人以群分。对数据或样本进行聚类,了解事物的类别,是一种探索性的方法。聚类的原理是什么?很简单,就是通过距离和相似系数进行聚类。这里就不多说了。

常用的有K均值聚类、层次聚类等。

例如:

软件是什么_spss是什么软件_软件是怎么开发出来的

对以上数据进行聚类:“分析”-“分类”-“k均值聚类”

软件是什么_软件是怎么开发出来的_spss是什么软件

同时确定类别数:

软件是什么_spss是什么软件_软件是怎么开发出来的

由于聚类设置为两类,因此结果如下:

软件是什么_spss是什么软件_软件是怎么开发出来的

可以看到不同案例编号对应的类别。当然你也可以尝试设置为4个类别,看看结果会发生什么变化。(如下图)

您还可以执行系统聚类:例如,对这些数据执行系统聚类:

得到的垂直冰柱图和树状图为:

软件是怎么开发出来的_spss是什么软件_软件是什么

软件是怎么开发出来的_spss是什么软件_软件是什么

12.主成分分析、因子分析

这里采用的思想是降维,也就是从一堆变量中选取一些主要变量进行分析,主要衡量指标是特征根的大小。

spss是什么软件_软件是怎么开发出来的_软件是什么

主成分分析和因子分析有什么相同点和不同点呢?可以先自己了解一下。Tips:主成分分析本质上是线性变换,不需要进行假设检验,而因子分析是统计模型,有些因子模型可以进行假设检验。其次,在SPSS操作中,主成分分析不需要旋转,而因子分析需要。

我们以因子分析为例,通过构建碎石图、做球形度检验、旋转等来看看因子分析的具体操作:

其x1至x9代表:

选择“分析”——“降维”——“因子分析”:结果如下:

如何解读碎石图?查看斜率。前三个成分的斜率较陡,因此可以使用前三个元素来表示所有元素。

软件是什么_软件是怎么开发出来的_spss是什么软件

从球形度检验表可以看出,KMO值大于0.5的最低标准,适合进行因子分析。同时,P值小于0.001,适合进行因子分析。

您还可以看到旋转前后的组件矩阵:

spss是什么软件_软件是什么_软件是怎么开发出来的

然后才能说明前三个因子中哪些成分的含量较大,并做出相应的解释。

13.可靠性分析

此方法用于问卷调查。信度指响应测量结果的一致性和稳定性。SPSS中的操作是“分析”-“测量”-“信度分析”

我们来分析一个例子:

软件是怎么开发出来的_软件是什么_spss是什么软件

对上表结果做可靠性分析:

得到可靠性结果:

软件是怎么开发出来的_spss是什么软件_软件是什么

Cronbach“Afa”系数为0.811,因此该试卷的信度较好。从下表可以看出:

spss是什么软件_软件是什么_软件是怎么开发出来的

crobanch系数值大于0.811,说明如果从试卷中删除姓名解答,试卷的信度值会增加。

最后我们来谈谈生存分析和Cox模型:

生存分析是结合生存时间和生存结果来分析数据的统计方法。我举个例子:(数据如下)

软件是怎么开发出来的_软件是什么_spss是什么软件

软件是什么_软件是怎么开发出来的_spss是什么软件

通过“分析”--“生存函数”--“生命表”我们得到:

软件是什么_软件是怎么开发出来的_spss是什么软件

软件是什么_软件是怎么开发出来的_spss是什么软件

Cox模型:可以建立生存时间与风险因素之间依赖关系的模型。

命令:“分析”--“生存函数”--“COX回归”

软件是什么_软件是怎么开发出来的_spss是什么软件

spss是什么软件_软件是怎么开发出来的_软件是什么

学习了SPSS之后,对数据定量分析有了更深入的理解,SPSS不但可以用于建模,还可以用于论文研究等领域,觉得可以的话就分享给同学吧!

相关内容 查看全部