您确定要删除吗?

取消
首页 算法大全 应用模型 分析软件 算法学院数据中心 关于本站
在线咨询
400-820-6981
意见反馈
返回顶部

相关分析

统计,顾名思义即将信息统括起来进行计算的意思,它是对数据进行定量处理的理论与技术。统计分析,常指对收集到的有关数据资料进行整理归类并进行解释的过程。在整个统计分析的过程中,分析是最重要的一个环节,如果缺少这一步,会降低统计工作的作用。准确的说,没有统计分析,统计的工作就没有活力、没有发展,也就没有统计工作的意义。

采用统计分析方法进行研究,必须遵循以下几个统计学基本特征:(1)科学性;(2)直观性;(3)可重复性

统计分析方法按功能标准进行划分,可分为描述统计和推断统计。

描述统计是将数据整理、归纳,并将这种关系以图表形式展现;主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有均值、标准差和相关系数等统计量。最常用的算法有均值分析,频率分析,描述统计等。

推断统计是指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体特征的一种重要的统计方法;推断统计包括总体分布已知的总体参数估计和假设检验,总体分布未知的非参数检验。最常用的参数检验方法有Z检验、T检验,非参数检验的方法包括卡方检验、符号检验、秩和检验等。

统计分析方法很多,但基本方法是定量分析。然而仅仅定量分析还是不足以解决问题,所以应遵循一定的分析技巧,统计分析技巧可以按照“定性-定量-定性”的顺序,巧妙的将定量分析和定性分析结合。

算法描述

相关分析就是分析变量之间是否存在某种因果关系,它是描述客观事物之间密切程度的方法,能以适当的统计指标将这种密切程度表示出来。为了确定相关变量之间的关系,应收集一些成对的数据并画成散点分布图;根据散点图分析变量的关系是否属于完全相关、不完全相关或者是不相关其中一种。

相关分析根据相关程度可分为:完全相关、不完全相关和不相关;根据相关的方向可分为:正相关和负相关;根据相关的形式分为:线性相关和非线性相关;根据分析对象可分为:二元变量之间的相关分析,带有控制变量的偏相关分析,以及多元变量之间的相关分析。

要讨论变量之间的相关关系,主要可以从反映变量关联程度大小的相关系数上进行研究;常用的相关系数的计算一般包含三种方法:分别是皮尔森相关(Pearson)、斯皮尔曼相关(Spearman)、肯德尔相关(Kendall)。

皮尔森相关(Pearson):也称为积矩相关系数或动差乘积相关系数,计算Pearson相关系数,适合于变量是连续型变量(又称等间隔测度变量)。

斯皮尔曼相关(Spearman):计算Spearman相关系数,适合于有序变量或不满足正态分布假设的等间隔数据。

肯德尔相关(Kendall):计算Kendall相关系数,适合于有序变量或不满足正态分布假设的等间隔数据。

两个变量之间的相关程度通过相关系数r来表示。相关系数r的取值范围在-1和1之间。

正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。

相关系数为r,当r=0时,表示不存在线性相关;当0<r≤0.3,为微弱相关;当0.3<r≤0.5,为低度相关;当0.5<r≤0.8,为显著相关;当0.8<r<1,为高度相关;r=1,为完全线性相关。

相关应用

相关分析可用来研究变量或者事物之间是否存在某种关系,能应用于任何领域的变量之间相关性分析。

例如,可以研究在一段时期内出生率与经济水平的变化情况,随着经济水平的上升而上升,这说明出生率与经济水平两者之间是正相关关系;而在另一时期,随着经济水平进一步的发展,出现出生率下降的趋势,这表明两个指标呈现负相关的关系。

参考资料

1 贾俊平编著,统计学,4版,北京:中国人民大学出版社,2011

2 陈希孺.概率论与数理统计.合肥:中国科学技术大学出版社,1992

3 盛骤,谢式千,潘承毅:概率论与数理统计,第四版,北京:高等教育出版社,2008

4 何晓群编著,现代统计分析方法与应用.第二版,中国人民大学出版社2007

5 马克威分析系统使用教程,http://www.tenly.com

实例

示例为某商店10种品牌,经过对顾客的调查得到的品牌知名度和顾客满意度数据,分析知名度与满意度之间是否存在某种关系?

品牌 知名度 满意度
A 0.9 0.9
B 0.68 0.78
C 0.44 0.35
D 0.18 0.16
E 0.58 0.49
F 0.38 0.19
G 0.5 0.64
H 0.53 0.54
I 0.75 0.83
J 0.99 0.9

由于是对知名度和满意度两个变量之间的关系进行分析,所以可以用二元变量的相关分析算法计算,其结果如下所示:

以皮尔森相关法计算知名度和满意度的相关系数表:

相关系数 知名度 满意度
知名度 1.0000 0.9319
满意度 0.9319 1.0000

知名度与满意度的散布图:

从相关系数表中可以得到,两者的相关系数为0.9319,呈现高度正相关;从散布图也可以看出,两者呈现正相关的关系,同时知名度与满意度之间的关系可用数学表达式表示为:知名度=1.0663*满意度-0.0543。

输入输出

输入变量类型:整型、浮点型

输入数据尺度:标量型、名义型、有序型

输出结果:变量之间的相关系数矩阵表,变量之间的散布图

相关条目

皮尔森相关、斯皮尔曼相关、肯德尔相关

优缺点

优点:相关分析主要用来研究变量或者事物之间是否存在某种关系,应用范围相当广泛。

确定