皮尔逊相关系数与p值

时间:2021-03-11 21:13:57 相术

1.皮尔逊相关系数

假设有两个变量x,y

则两者之间的皮尔逊相关系数为:

皮尔逊相关系数衡量的是两者之间的相关关系,取值范围为[-1,1],取值为正表示正相关,取值为负表示是负相关,同时,皮尔逊相关系数衡量的是两个变量之间的线性关系,如下图,横轴与纵轴变量有明显的线性关系,

在这里插入图片描述

由公式计算出来相关系数为 0.9836,高度相关性;

而当两个变量之间有相关关系但是不是线性时,用皮尔逊相关系数衡量则会出现较大的偏差 ,比如

下图pvalue怎么看相关性,设横轴为x, 纵轴为y,且 y = x*x

在这里插入图片描述

两变量之间有非线性的相关性,但如果此时用皮尔逊相关系数衡量,则相关系数为0

所以pvalue怎么看相关性,非线性相关关系不能用皮尔逊相关系数衡量

通常情况下通过以下取值范围判断变量的相关强度:

相关系数 (均取绝对值后):

0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关或无相关

2.显著性水平P值

讨论两变量是否相关必须讨论显著性水平,不谈P值之谈相关系数大小是无意义的,两者之间的相关关系可能只是偶然因素引起的,所以我们要对两个变量之间的相关关系的显著性水平进行判断;

采用假设检验的方法:

原假设H0: R=0 两变量之间不存在线性关联

备择假设H1: R不等于0,两变量之间存在线性关联

根据假设检验方法,在零假设成立的条件下,即假设两变量不存在相关性的前提下,计算出两变量不存在相关性的概率值(P值),如果这个P值很小,说明两变量不存在相关性的概率很小,我们就可以拒绝原假设,接受备择假设,那么这里我们就需要一个阈值

通常以5%为阈值(这里的阈值也称为显著水平),如果 p

所以当p值远大于 0.05时,即使相关系数很大,我们也不能说两变量之间存在明显相关性;而且一般要先在p值满足要求的前提下再去谈 相关系数的大小

本人的粗浅认识,若有错误,劳烦指正.

读过此篇文章的网友还读过: