干货:关乎你的实验成败,0.05这个值不容小嘘!


几乎每篇实验性的科研论文里都要有对照组和实验组,我们往往也是将实验组和对照组相比,看看性能是变好了还是变差了,有没有显著性差异呢?大部分科研搬砖者们都会进行假设检验,求算出P值,如果P值小于0.05, 我们就说两者之间有显著性差异。那么你真的了解P值君,到底是啥吗?下面和小编一起走进统计学的世界吧,让你的数据分析地更有理有据,文章看起来更高大上哦!

上图是一片文章里关于数据统计学代表性的说明。一般任何一篇实验性的论文里,都要有统计学分析这一模块。也就是说你不能只做一组实验,只测一个数据,就去说这个产品或者实验结果好不好,这样是没有说服力的。因此,一般的科研论文里,每组数据至少是三个样本量,再对比组分之间的差异。有些教授更注重数据的真实性和再现性,因此可能会让第二个学生来重复你的实验,看是否能得到相同的结果。总之,就是说我们科研论文里的数据要有统计学意义,要能反映真实的水平。上图论文里的统计学分析也是目前用的最多的一种简单的分析,大意是所有的数据是从三个独立的实验中得到的,并且数据的呈现方式是平均值±标准偏差的方式。使用的单因子ANOVA方差分析的方式求算P值,若P值小于0.05,则会被认为是具有显著性差异。

那么上述中的P值具体是什么呢?且听笔者娓娓道来。

现代统计学可分为统计描述和统计推断两个部分。统计描述简单来说,就是把数据按一定的方式呈现,求算平均值、中位数,看看数据处于什么水平。标准差就是用来看数据波动的程度。当然也可以用柱状图,箱线图,散点图等统计图形来更为形象直观地展示。而统计推断是用我们手中的样本数据来推断其背后的总体特征,分为参数估计和假设检验两大部分。

参数估计是利用样本的统计量去估计总体的参数,比如说用样本的平均数去估算整体的平均值。考虑到抽样误差,一般我们会用一个范围,而不是一个单一的值去估计总体参数,此即所谓的区间估计。

假设检验则是利用小概率反正法思想,从问题的对立面(H0,原假设)出发,假定H0成立的条件下,去计算检验统计量,获得P值,再通过P值来在H0,H1(备择假设)之间做进一步取舍。因此,P值就是在H0为真的条件下,获得当前样本或者更偏的样本的概率。我们举个例子,比如说我们假设实验组和对照组两者均值相等,根据假设检验求算出P值小于0.05,这也就说明只有5%不到的概率表示原假设(实验组和对照组两者均值相等)成立,介于这概率太低,那么也就能说明原假设应该是不成立的,也就是实验组和对照组两者均值不相等,有显著性差异。

了解了P值之后,要了解假设检验的方法。下表给出了统计学中常用的假设检验的方法。

数据类型

均值

等方差检验

正态分布数据

非正态分布数据

正态分布数据

非正态分布数据

单总体

偏差已知,使用Z检验;偏差未知,使用T检验

中位数检验

卡方检验

Bonett检验

双总体

双T检验或配对检验

Mann- Whitney检验

F检验

Levene检验

多总体

方差分析

Kruskal-walls检验法、Mood中位数检验法、Fredman检验法

Bonett检验

Levene检验

看到复杂的上表,千万不要头疼,我们一般使用较多的便是多总体的方差分析的方法,来比较实验组与对照组之间是否有显著性差异。而方差分析,一般利用origin\graphpad\minitab,甚至EXCEL都是有公式能够进行计算的。

下面来看看处理好数据之后,如何把数据展示出来吧。大家也都知道,好的杂志发表的顶尖文章里,配图和实验数据的展示也都是一流的。下图是一篇论文里展示数据的方式,可以发现作者用柱状图的形式,将各组数据的平均值及偏差表示出来,又两两对比是否存在显著性差异。*代表两者之间P值小于0.05,**代表两者之间P值小于0.01,***代表两者之间P值小于0.001。这样我们便能很直观的了解到各组之间的数据水平及差异。

上图是常见的科研论文里呈现数据的柱状图,我们一般使用ORIGIN或者Graphpad便可以画出来。下面,小编给大家介绍一个新软件,专门用来进行统计学分析及画图的软件-MINITAB。学好了,可以让你的数据处理地更专业,也能用更好的方式去呈现你的实验数据。

首先,来看一下百度百科对Minitab软件的介绍吧。Minitab软件是现代质量管理统计的领先者,全球六西格玛实施的共同语言,以无可比拟的强大功能和简易的可视化操作深受广大质量学者和统计专家的青睐。Minitab 1972年成立于美国的宾夕法尼亚州州立大学(Pennsylvania State University),到目前为止,已经在全球100多个国家,4800多所高校被广泛使用。

打开MINITAB的界面是下面这样的。

我们一般使用最多的两个功能,分别是统计与图形两个模块。

下面来到重点,介绍一下如何求算两组数据之间的P值以及如何画箱线图。首先,我们要确定这两组数据是不是正太分布,是不是等方差,根据我们上面列的表格,选择合适的假设检验的方法。

上图实验组和对照组的数据,经计算是独立正态等方差的,因此我们选择双T假设检验的方法,求算出P值为0.002, 小于0.05,也就是说在95%的置信度下,实验组和对照组是有显著性差异的。

双样本 T 检验和置信区间: 对照组, 实验组

方法

μ₁: 对照组 的均值

µ₂: 实验组 的均值

差值: μ₁ - µ₂

未针对此分析假定等方差。

描述性统计量

样本

N

均值

标准差

均值标
准误

对照组

5

5.40

2.07

0.93

实验组

5

11.200

0.837

0.37

差值的估计值

差值

差值的 95%
置信区间

-5.80

(-8.37, -3.23)

检验

原假设

H₀: μ₁ - µ₂ = 0

备择假设

H₁: μ₁ - µ₂ ≠ 0

 

T 值

自由度

P 值

-5.80

5

0.002

此外,我们也可以将这两组数据,画成箱线图,更直观地表示两组数据的分布情况。

 

Minitab是统计学及数据处理领域中功能非常强大的一款软件,如果大家有兴趣,可以再深层次地学习一下,能够对分析实验数据,对比差异性能提供更专业的技术支持。

以上,就是今天介绍的统计学知识啦,现在你了解P值是什么了吗?实验论文中,我们一般的样本量大多为3个或5个,求算平均值及标准偏差。没有误差棒的数据图,是会被诟病的。 所以请大家千万要有数据统计的意识,保证你的实验数据是有代表性意义的。在进行统计学分析的时候,做到知其然并知其所以然!

往期回顾:

干货:疲劳测试方法及应用介绍

干货:一文解读铜基CO2还原催化剂

干货:X射线吸收谱(XAFS)在多相催化中的应用

科研干货| Rietveld精修入门

 
 

本文由作者杜老师供稿

欢迎大家到材料人宣传科技成果并对文献进行深入解读,投稿邮箱: tougao@cailiaoren.com.

投稿以及内容合作可加编辑微信:cailiaorenVIP.

分享到