4008-443757
数据分析
常用统计软件介绍
发布时间:2019-12-29    信息来源:未知    浏览次数:

 是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析的标准软件。已被广泛应用于政府行政管理,科研,教育,生产和金融等不同领域,并且发挥着愈来愈重要的作用

 SPSS作为仅次于SAS的统计软件工具包,在社会科学领域有着广泛的应用。SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于20世纪60年代末研制。由于SPSS容易操作,输出漂亮,功能齐全,价格合理,所以很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。迄今SPSS软件已有30余年的成长历史。全球约有25万家产品用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。因此,对于非统计工作者是很好的选择。

 它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。

 这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”,以争取顾客。但仍然以编程方便为顾客所青睐。

 这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。

 也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。

 SAS是美国使用最为广泛的三大著名统计分析软件(SAS,SPSS和SYSTAT)之一,是目前国际上最为流行的一种大型统计分析系统,被誉为统计分析的标准软件。

 SAS为“Statistical Analysis System”的缩写,意为统计分析系统。它于1966年开始研制,1976年由美国SAS软件研究所实现商品化。1985年推出SAS PC微机版本,1987年推出DOS下的SAS6.03版,之后又推出6.04版。以后的版本均可在WINDOWS下运行,目前最高版本为SAS6.12版。SAS集数据存取,管理,分析和展现于一体,为不同的应用领域提供了卓越的数据处理功能。它独特的“多硬件厂商结构”(MVA)支持多种硬件平台,在大,中,小与微型计算机和多种操作系统(如UNIX,MVS WINDOWS和DOS等)下都可运行。SAS采用模块式设计,用户可根据需要选择不同的模块组合。它适用于具有不同水平于经验的用户,初学者可以较快掌握其基本操作,熟练者可用于完成各种复杂的数据处理。

 目前SAS已在全球100多个国家和地区拥有29000多个客户群,直接用户超过300万人。在我国,国家信息中心,国家统计局,卫生部,中国科学院等都是SAS系统的大用户。SAS以被广泛应用于政府行政管理,科研,教育,生产和金融等不同领域,并且发挥着愈来愈重要的作用。

 SAS的设计思想是为统计学家和科学工作者提供这样的一个工具,利用它可以完成包括从简单的描述性系统到复杂的多变数分析的各种运算,从而使人们从繁重的计算任务中解脱出来,有更多的时间和精力用于分析和解释计算的结果,而不必为如何获得这些结果花费过多的时间和精力。

 SAS的各项功能由功能模块完成。其中BASA模块为必需模块,其它模块可任选。供选择的模块包括统计(STAS),矩阵运算(IML),绘图(GRAPH)和全屏幕操作(FSP)等20余个。

 基础模块(BASE),具有以下功能:进行数据存储,调入,追加,拷贝和文件处理;编写报告,打印图表;进行数据排序,分类等操作;完成一些基本统计数计算(如平均数和相关系数);与一些软件包(DBASE,LOTUS等)及大型机进行数据交换和通讯。BASE模块为SAS系统的核心模块。

 统计模块(STAT)提供一些高度可靠,完整的统计分析过程。主要有方差分析(包括一元,多元的单因素及多因素实验设计的方差分析),线性相关和回归分析(包括聚类分析,主成份分析,因子分析,典范相关分析)以及非参数测验等,共计26个过程。每个过程还提供多种不同算法和选项,从而SAS系统成为一个全面,细致,科学的统计分析方法集。STAT模块为SAS系统的核心和精华。

 矩阵运算模块(IML)是一种交互式矩阵语言。可直接进行矩阵运算(加法,乘法,求逆,计算特征值和特征向量等),适用于高级统计,工程运算和数学分析。

 绘图模块(GRAPH)能在微机的绘图设备上绘制图形。可制作三维图形,地图和幻灯等。

 全屏幕操作模块(FSP)为一交互式全屏幕软件。利用他可以建立,修改和浏览SAS数据集中的观察值,定义用户屏幕等。

 SAS提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及多变数分析的多种统计分析过程,几乎囊括了所有最新分析方法,其分析技术先进,可靠。分析方法的实现通过过程调用完成。许多过程同时提供了多种算法和选项。例如方差分析中的多重比较,提供了包括LSD,DUNCAN,TUKEY测验在内的10余种方法;回归分析提供了9种自变量选择的方法(如STEPWISE,BACKWARD,FORWARD,RSQUARE等)。回归模型中可以选择是否包括截距,还可以事先指定一些包括在模型中的自变量字组(SUBSET)等。对于中间计算结果,可以全部输出,不输出或选择输出,也可存储到文件中供后续分析过程调用。

 SAS以一个通用的数据(DATA)步产生数据集,尔后以不同的过程调用完成各种数据分析。其编程语句简洁,短小,通常只需很小的几句语句即可完成一些复杂的运算,得到满意的结果。结果输出以简明的英文给出提示,统计术语规范易懂,具有初步英语和统计基础即可。使用者只要告诉SAS“做什么”,而不必告诉其“怎么做”。同时SAS的设计,使得任何SAS能够“猜”出的东西用户都不必告诉它(即无需设定),并且能自动修正一些小的错误(例如将DATA语句的DATA拼写成DATE,SAS将假设为DATA继续运行,仅在LOG中给出注释说明)。对运行时的错误它尽可能地给出错误原因及改正方法。因而SAS将统计的科学、严谨、准确及方便使用有机地结合起来,极大地方便了使用者。

 SPSS是“社会科学统计软件包”(Statistical Package for the Social Science)的简称,是一种集成化的计算机数据处理应用软件,是世界上公认的三大数据分析软件之一(SAS、SPSS和SYSTAT)。1968年,美国斯坦福大学H.Nie等三位大学生开发了最早的SPSS统计软件,并于1975年在芝加哥成立了SPSS公司,已有30余年的成长历史,全球约有25万家产品用户,广泛分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个领域和行业。伴随SPSS服务领域的扩大和深度的增加,SPSS公司已决定将其全称更改为Statistical Product and Service solutions(统计产品与服务解决方案)。目前,世界上最著名的数据分析软件是SAS和SPSS。SAS由于是为专业统计分析人员设计的,具有功能强大,灵活多样的特点,为专业人士所喜爱。而SPSS是为广大的非专业人士设计,它操作简便,好学易懂,简单实用,因而很受非专业人士的青睐。此外,比起SAS软件来,SPSS主要针对着社会科学研究领域开发,因而更适合应用于教育科学研究,是国外教育科研人员必备的科研工具。1988年,中国高教学会首次推广了这种软件,从此成为国内教育科研人员最常用的工具。

 1)集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体。从理论上说,只要计算机硬盘和内存足够大,SPSS可以处理任意大小的数据文件,无论文件中包含多少个变量,也不论数据中包含多少个案例。

 2)统计功能囊括了《统计学》中所有的项目,包括常规的集中量数和差异量数、相关分析、回归分析、方差分析、卡方检验、t检验和非参数检验;也包括近期发展的多元统计技术,如多元回归分析、聚类分析、判别分析、主成分分析和因子分析等方法,并能在屏幕(或打印机)上显示(打印)如正态分布图、直方图、散点图等各种统计图表。从某种意义上讲,SPSS软件还可以帮助数学功底不够的使用者学习运用现代统计技术。使用者仅需要关心某个问题应该采用何种统计方法,并初步掌握对计算结果的解释,而不需要了解其具体运算过程,可能在使用手册的帮助下定量分析数据。

 3)自从1995年SPSS公司与微软公司合作开发SPSS界面后,SPSS界面变得越来越友好,操作也越来越简单。熟悉微软公司产品的用户学起SPSS操作很容易上手。SPSS for Windows界面完全是菜单式,一般稍有统计基础的人经过三天培训即可用SPSS做简单的数据分析,包括绘制图表、简单回归、相关分析等等,关键在于如何进行结果分析及解释,这一方面需要学习一些数理统计的基本知识,另一方面也要多进行实践,在实践中了解各种统计结果的实际意义。

 SPSS安装与其他WIN软件类似,在“安装向导”提示下完成。目前尚无汉化版。为了帮助学习,我们为大家提供了一个14.0版的“汉化补丁”(PSPSS10a.EXE),但仅能汉化菜单,尚不能汉化输出结果。

 SPSS系统提供两种操作运行方式,分别为窗口菜单方式和程序方式,我们主要介绍以窗口和对话框为主的窗口菜单运行方式。此种方式下用户在数据编辑窗口准备好数据后,利用窗口相应菜单项中的各功能进行管理和统计分析工作。此时用户通过点选某菜单项选择一种统计分析过程,系统用对话框接受用户设定的参数和选择项后即执行该过程,并将结果在输出窗口中显示出来。这种运行方式简便、直观,这也正是SPSS大受欢迎的原因。

 既然是窗口操作方式,首先就要介绍SPSS系统的窗口。SPSS的窗口都具有典型的Windows风格和功能,具备各种窗口控件,主要有三类:数据编辑窗口(Data Editor)、结果输出窗口(Viewer)和语法窗口(Syntax Editor),下面分别介绍各自的功能及特点。

 系统启动后自动打开的窗口就是数据编辑窗口,是SPSS系统的主窗口,主要用于准备、整理数据以及调用统计分析过程等。系统只能同时打开一个数据文件;当打开新的数据文件时,系统自动关闭前一个数据文件;一旦关闭数据窗口则SPSS系统也就相应退出。

 数据编辑窗口结构见图1.1,在窗口标题栏中会显示当前打开的数据文件名,若是新建数据文件则系统默认文件名为Untitled。

 数据显示区是数据编辑窗口的主要区域,由两张工作表组成,即数据视窗(Data View)和变量视窗(Variable View),可以通过点选左下方的视窗标签进行视窗的切换,也可以通过菜单项View→Data/Variables进行切换。每张工作表都是一张可扩展的二维数据表格。其中数据视窗主要用于显示和编辑数据,所以专门提供了当前数据栏(显示当前记录号和变量名)和数据输入栏(显示当前记录号和变量名对应的数据值)。在数据表中,系统自动取最左列显示记录号,最顶行显示变量名,要分析处理的数据存放在表格中。

 变量视窗则用来定义编辑变量的有关属性。一个变量的属性占用一行,每种属性各占一列,包括变量名(Name)、类型(Type)、宽度(Width)、精度(Decimal)、标签(Label)、值标签(Values)、缺失值(Missing)、列宽(Columns)、对齐方式(Align)和测量类型(Measure)等。

 窗口上方的菜单栏提供了SPSS系统全部可调用功能,共有10个选项,分别为:

 4、Data:数据管理菜单,可定义及修改变量属性,对记录选择、排序、加权以及对数据文件进行转置、连接、汇总等;

 5、Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代等;

 8、Utilities:用户选项菜单,可显示变量列表、文件信息,定义及使用集合,运行脚本文件和编辑菜单项等;

 除了菜单选项外,系统还提供快捷工具条栏,栏内包含多个常用功能的快捷按钮,用户点击就可直接完成相应功能,快速简便。当鼠标在图标按钮上停留片刻后,还会自动出现文字说明,对该图标按钮所执行功能进行简单的解释。系统默认的工具条见图1.1,各按钮的对应功能及菜单项如下:

 SPSS系统提供用户较大的自主性,可以管理窗口的显示,包括控制某些窗口部件是否显示、自定义工具栏或建立新的工具栏以及选择窗口中数据显示的字体。这些都通过View菜单项的下一级子菜单项进行控制,其对应功能如下,

 其中状态条、网格线和变量值标签都是开关键(又称乒乓键),即该键只有两种状态,通过点击控制交替出现,在键前用“a”标示其是否显示(有则表示显示)。上面就表示当前为数据视窗,在其中显示状态条、网格线和变量值标签。

 单击菜单File→Toolbars,就可以控制工具条的显示与否、自定义工具条或建立新的工具条。此时系统弹出工具条对线,在框中进行相应的定义与修改。或者将光标置于工具栏上,单击右键,在弹出的快捷菜单中也可进行相应的选择。

 File→Fonts,即可在相应的对话框中选择各种字体、字体样式及大小(见图1.3)。5.2

 结果输出窗口---SPSS Viewer结果输出窗口用于显示分析结果和系统信息。系统启动时并不打开输出窗口,当完成首次统计分析过程后会自动打开。如果处理成功,就显示处理结果;如果处理过程中发生错误或失败,则提示出错信息。用户也可以通过菜单,单击

 SPSS标准结果输出窗口系统允许同时打开多个输出窗口,在窗口标题栏自动显示其对应的输出文件名;若是新开的窗口,按顺序自动标记为“Output1

 ”、……等。在同时打开的多个输出窗口中只有一个为活动输出窗口,当前操作的输出结果在活动输出窗口中输出。在窗口的工具栏中有一个图标按钮,活动输出窗口的为灰色,其它窗口则为红色。要指定某输出窗口为活动输出窗口,可以通过单击该窗口的“!”按钮,使其变为灰色即可;也可以在该窗口中单击菜单项

 1.4),左侧窗格显示输出内容的大纲视图(又称导航器);右侧显示具体内容,包含所有的输出结果。结果以对象的显示组织,有文本、图形和表格三种形式。系统都提供相应的编辑器,只要双击某对象就进入编辑状态。输出窗口有自己的菜单栏和工具栏,菜单栏中 “

 ”、“Graphs”、“Utilities”、“Windows”和“Help”的功能与Data Editor视窗一致,而“File”、“Edit”、“View”中添加了相应的编辑输出结果的功能,而菜单项“Insert”和“Format”则提供了插入功能和格式调整功能。工具栏中也有部分图标按钮与数据编辑窗口相同,另外部分是专用于结果编辑操作的按钮。5.3

 ,也可以打开一个新的语句编辑窗口。语句编辑窗口也可以同时打开多个,新的按顺序自动标记为“

 .sps的语法文件。语句窗口也有自己的菜单栏和工具栏,大部分与数据编辑窗口相同,其中不同的菜单项“

 ”,可以执行全部或选定的命令语句。在语句窗口也可以调用菜单项执行所有的统计分析功能。在实际操作中,用窗口方式提交某项分析后,系统会直接将窗口内容翻译成程序语句(即

 窗口中的语句),提交给系统去执行。通过打开语句窗口,我们不仅可以查看程序语句,对某些无法通过对话框指定的参数,可以在语句窗口对程序进行相应修改,从而实现仅用菜单方式无法完成的统计分析功能,这是语句窗口一大优点。如果不想用程序运行方式,只要关闭语句编辑窗口,系统又会自动用菜单方式运行。

 Linear Regression对话框中的Plots按钮,将打开如图4-3所示Linear Regression:Plot对话框。该对话框用来设置对残差序列作图形分析,从而检验残差序列的正态性、随机性和是否存在异方差现象。

 4-1所示Linear Regression对话框中的Save按钮,将打开如图4-4所示Linear Regression:Save对话框。该对话框用来设置将回归分析的结果保存到SPSS数据编辑窗口的变量中,还是某个SPSS的数据文件中。

 4-1所示Linear Regression对话框中的options命令,将打开如图4-5所示的对话框。在该对话框中可以对多元线性回归分析中与自变量的筛选有关的参数进行设定,同时也可设置缺省值采用不同的处理方法。

 该表格输出的是被引入或从回归方程中被踢除的各变量。该部分结果说明对编号为

 Coefficients为非标准化系数,Standardized Coefficients为标准化系数,I为回归系数检验统计量,Sig为伴随概率值。结论:从表格中可以看出估计值及其检验结果,常数项

 与钢材中碳的含量有密切关系,为了冶炼出符合要求强度的钢,常常通过控制钢水中的碳含量来达到目的,因此需要了解与之间的关系,下面是10组不同的碳含量(%)对应的强度(kg/m)数据。

分享到:
您使用的浏览器版本过低,不仅存在较多的安全漏洞,也无法完美支持最新的web技术和标准,请更新高版本浏览器!!