统计测量的标准偏差不能除以根号N
本帖最后由 史锦顺 于 2017-12-17 14:14 编辑-
统计测量的标准偏差不能除以根号N
——回复吴下阿蒙(1)
-
史锦顺
-
【吴下阿蒙】
史老提到的问题,实际中是存在的,但我认为这不是不确定度体系本身的问题,而是使用者缺乏足够的知识造成的(比如我之前那样)。不确定度的评定真的不是找几本规程看一看,拿一本书套一套就能评定的正确的,只能似是而非。
-
【史评】
你的这种认识,是长期学校教育的负作用,就是习惯于保守不变的模式:已有的理论是“从正确到正确”。如果出问题,是没用好。通常,这可能是对的,但有时却恰恰相反。要具体分析。我研究误差理论30年,又分析不确定度体系20年,结论是:误差理论有不足,但基本正确;而不确定度体系错了。
对不确定度体系,我的评价是:立基于不可知论,哲学观错;定义跳槽、分类穿帮、对象与手段混淆,逻辑错;估计代替计算、假设代替分析,方法错;混淆两类测量、混淆两种误差,测量模式错;混淆两种统计,统计方式错。由此导致计量、测量的各种处理方法全错。不确定度体系的一切,没有任何可取之处。不确定度体系是扰乱正常计量秩序、害人误事的伪科学。
-
原苏联的教育理论说,只能向学生讲正确的观点。但这不符合历史发展、理论发展的客观事实。事物发展的一条重要规律是“否定之否定”。
你进入测量计量界不久,还不了解关于“不确定度体系”的学术争论情况。不确定度体系在实际应用中的混乱与错误,原因是不确定度体系本身。我建议你抽空浏览一下我在本栏目贴出的抨击不确定度体系的杂文。为阅读方便,你把邮箱告诉我,我寄给你已编好的八本文集。
-
(一)统计测量的标准偏差不能除以根号N
【吴下阿蒙论述】
1. 除不除以根号n,取决于我们需要的测量结果是单值还是均值。
【史评】
你的这个观点,有普遍性。许多人都有这种观点或类似的观点。
我这里明确指出:在统计测量中,必须取平均值来表征统计变量的量值大小;而在取平均值的情况下又必须取单值的σ来表征统计变量的分散性。
这个分散性,又称重复性(同一测量条件),复现性(不同测量条件),波动性或稳定度(电源之电压、温度源之温度),频率稳定度(特指频率的短期随机变化,有采样时间、采样次数、计算方法的严格定义,本质是单值的σ)。
-
当前,包括一些书籍,有一个普遍的说法:量值取单值,则用单值的σ;量值取平均值,则用平均值的σ平。这个说法是错误的。说明如下。
1 高斯正态分布的理论
1.1 有偏正态分布
高斯有偏正态分布的几率密度函数为
p(Y) = {1/ [σ√(2π)]} exp [– (Y-μ)2 / (2σ2)] (1)
Y是变量,μ是变量Y的期望值。示意图如图1.图中以Y平代替μ。B是随机变量的标称值。β表示系统偏差。R表示总偏差范围。
-
1.2 无偏正态分布
令ξ = Y-μ,则
Eξ =E(Y-μ)=EY – μ=0
ξ是期望值为0的纯随机变量。
高斯无偏正态分布的几率密度函数为
p(ξ) = {1/ [σ√(2π)]} exp [– ξ2 / (2σ2)] (2)
随机变量ξ的分布是无偏正态分布。如图2。
-
1.3 标准正态分布图
再令σ=1,并令x=ξ,则称标准正态分布。标准正态分布的概率密度函数为
p(x) = exp [– x2 / 2] (3)
正态分布的“概率函数”为
φ(x)= ∫ (-∞→x) exp [– t2 / 2] (4)
标准正态分布的分布图与图2相同,只是把σ记为1即可。
-
2 取平均值时,偏差区间的包含概率的计算
《数学手册》(1980版)给出的是公式(3)与公式(4)的数值表。包含概率的计算方法如下。
求-kσ到+kσ的包含概率
从-∞到k的概率是φ(k),从k到+∞的包含概率是1-φ(k)。由于分布密度函数的对称性,从-∞到-k的包含概率与k到+∞的概率相等,为1-φ(k)。因此有:
p(-k→+k)=φ(k)- =2φ(k)-1 (5)
-
2.1 区间[-σ,σ]
查表φ(1)=0.841345
包含概率为
pσ = 2φ(1)-1=0.841345×2-1=1.68269-1
= 0.683
-
2.2 区间[-2σ,2σ]
查表φ(2)=0.977250
包含概率为
p2σ= 2φ(2)-1=0.977250×2-1=1.9545-1
= 0.9545
-
2.3 区间[-3σ,3σ]
查表φ(3)=0.998650
包含概率为
p3σ= 2φ(3)-1=0.998650×2-1=1.9973-1
= 0.9973
-
3 不取平均值而取其他单值时,区间包含概率的计算
公式推导 设单值为Y平+ nσ , 区间半宽为kσ, 则区间为[(n-k) σ,(n+k)σ],有
K1=n-k
K2=n+k
当K为负值时,由于概率密度函数的对称性,从-∞到K(负值)的包含概率与-K到+∞的概率相等,都为1-φ(-K)。当K为正值时,从-∞到K(正值)的包含概率就是φ(K)。
从-∞到K2的包含概率减去从-∞到K1的包含概率,就是所求的区间[(n-k) σ,(n+k)σ]的包含概率。
-
3.1 计算公式
3.1.1(n-k)<0,(n+k)>0
P =φ(n+k) – (6)
3.1.2(n-k) ≥0
P=φ(n+k) -φ(n-k) (7)
-
3.2 计算举例
例1 取Y=Y平+2σ,求半宽为3σ的区间的包含概率
k=3,n=2 按公式(6)计算
P =φ(n+k) –
=φ(5)-
≈φ(1)=0.841345
≈0.84
例2 取Y=Y平+2σ,求半宽为2σ的区间的包含概率
k=2,n=2 按公式(7)计算
P=φ(n+k) -φ(n-k)
=φ(4)- φ(0)
≈1-0.50
≈0.5
-
例3 取Y=Y平+3σ,求半宽为3σ的区间的包含概率
k=3,n=3 按公式(6)或(7)计算
P=φ(n+k) –
=φ(6) –
=φ(0)
= 0.5
例4 取Y=Y平+3σ,求半宽为2σ的区间的包含概率
k=2,n=3 按公式(7)计算
P=φ(n+k) -φ(n-k)
=φ(5) –φ(1)
=1-0.841345
= 0.16
说明:以上φ(6)、φ(5) 、φ(4)都近似为1.
-
请注意你,如果不取平均值,而是取其他单值,那么区间的包含概率就可能很小。上例中,有50%,甚至有16%,多么严重!
-
总结
统计变量的分散性,是统计变量本身的特性,必须如实地描述、表达,不能人为地缩小。单值的标准偏差σ,随着测量次数增大而趋于一个常数,它是随机变量分散性的表征量。平均值的标准偏差σ平,随着测量次数增大而缩小,并趋于零。σ平不是随机变量的表征量。因此,表征随机变量的分散性,必须用σ。
以上观点,我多次表达过。这次进一步证明:用σ表达分散性,而取值必须取变量的平均值,才有通常人们熟知的“以2σ为半宽的区间的包含概率是95%”、“以3σ为半宽的区间的包含概率是99%”。如果不取平均值而取其他单值,则包含区间的概率就会大大降低,如例1到例4。
结论:
1 统计测量,σ不能除以根号N。不论测量多少次。
2 量值必须取平均值。
-
补充内容 (2017-12-17 16:13):
公式(4)的积分号内最后加dt 本帖最后由 csln 于 2017-12-18 11:29 编辑
平均值的标准偏差σ平,随着测量次数增大而缩小,并趋于零。σ平不是随机变量的表征量。因此,表征随机变量的分散性,必须用σ。
这是一个貌似合理的悖论
因为不存在σ平趋于0重复测量,σ平=σ/ √n,当n大到一定程度再增加n没有意义,没有人会傻到去做没有意义的无用功,这是实用上
理论上不会存在n趋近于无穷大的N个重复测量的平均值,n趋近于无穷大时,N只能等于1
这种推论无论是实用上还是理论上都不成立,以此为前提得出的结论必然是错误的
用天平检定标准法码,天平的MPEV远小于法码的MPEV,是统计测量,检定中重复测量时数据分散性主要来源于天平的稳定性,σ(天平)远大于σ(法码),又成了基础测量,同一次测量,到底是基础测量还是统计测量?乱!!! 单值σ表征单次测量的分散性,平均值σ表征平均值的分散性,只有重复性测量平均值不存在的测量才不能用平均值σ表征,这在经典误差理论中是很清晰的 本帖最后由 狼烟 于 2017-12-17 14:47 编辑
1 统计测量,σ不能除以根号N。不论测量多少次。
这是不是就意味着不管测量几次,其结果的可信度基本是一样的,没有量级的差距?这可能吗?那为何要增加测量次数?
2 量值必须取平均值。
在测量次数足够多时,平均值和峰值是一样的。测量次数减少时,平均值应该先于峰值变化,因为在均值等于峰值时,随便去掉一个测量结果(只要不是峰值)均值就变化,所以不能用均值。 -
狼烟 发表于 2017-12-17 14:45
1 统计测量,σ不能除以根号N。不论测量多少次。
这是不是就意味着不管测量几次,其结果的可信度基本是一样 ...
非常赞同。如果重复测量不能减少不确定度,那为什么还需要进行重复测量,难道全中国编写 检规 的人都脑子敲坏了?闲的没事就喜欢多搞几次测量?反正测多少次都不会影响测量结果的不确定度,测1次的值跟测几次的值得不确定度是一样。 本帖最后由 csln 于 2017-12-18 08:50 编辑
基础测量?统计测量?计量是统计测量还是基础测量?
用σ(1s)=8E-14的氢钟和σ(1s)=3E-15的比对器检定σ(1s)=1.2E-11的小铯钟的秒稳,按史先生的定义,是典型统计测量,真的是:结论:1 统计测量,σ不能除以根号N。不论测量多少次。2 量值必须取平均值。吗?事实是:全世界任何实验室都不会对这种测量的取样值求平均值
用σ(1s)=8E-14的氢钟检定和σ(1s)=3E-15的比对器的1s比对不确定度,手段稳定度远差于对象稳定度,又成了基础测量
计量到底是“统计测量”呢还是“基础测量"呢?
所以根本不存在什么所谓“基础测量”、“统计测量”之划分,计量也根本不是什么“统计测量”,计量的任何专业都存在既是“基础测量”又是“统计测量”的项目
只能学习一下,想不出自己的观点。 本帖最后由 都成 于 2017-12-18 10:56 编辑
csln先生就是本论坛中的高人之一,请史老再好好考虑一下“两类测量”的分类问题,计量检定/校准是否是您所说的“统计测量”。csln的举例和质疑非常好,砝码、量块、标准电阻等等量具都是如此,推演到其它仪器也是如此。
csln先生就是本论坛中的高人之一,请史老再好好考虑一下“两类测量”的分类问题,计量检定/校准是否是您所说的“统计测量”。csln的举例和质疑非常好,砝码、量块、标准电阻等等量具都是如此,推演到其它仪器也是如此。 单值的标准偏差σ,随着测量次数增大而趋于一个常数,它是随机变量分散性的表征量。平均值的标准偏差σ平,随着测量次数增大而缩小,并趋于零。
史老对这句话进行了论证,但这句话难道不正好反映了是否除以根号n的问题嘛?
对一个物理量测量10次的平均值A,对一个物理量测量20次的平均值B。那么A和B应该哪一个更接近此物理量的真值呢?如果选用单次标准偏差,测的次数越多,偏差越大,这不是很不合理嘛?
然后,使用测量结果的单值还是均值,我理解的话应该从物理量来看:
1. 量块的长度,这种真值为单值且稳定性很好的物理量,应该使用测量结果的平均值,这个值更接近于量块的真值,而不确定度评定也是使用平均值的标准偏差σ平除以根号n。
2. 电源的输出电压,由于每次的输出值都不同,其真值是一组量值,这时应该取测量结果的单值的不确定度,即不确定度评定使用单值的标准偏差σ平不除以根号n。如果使用均值的不确定度,那么未来需要确保今后在同类测量中所给的测量结果必须是n次测量的平均值,但这并不实际。那么此时测量结果选用单值还是均值?我们评定的是单值的不确定度,理论上测量中的每一个单值做为测量结果都是可以的,但实际我们还是会选平均值做为测量结果(至少我接触的是这样的)。
本帖最后由 csln 于 2017-12-18 15:23 编辑
这是史先生称为旗手的马先生评的一个不确定度,从测量值看,“手段”1E-8,“对象”1.8E-7,是典型“统计测量”,是马先生错了吗?
应该没有这个可能性
除以根号N,是由统计学的计算公式得出的,不是随便定的,建议好好研究统计学,以数学公式为依据。 在不确定度早期,或者说在1059-1999之前,国家计量院的一些误差理论专家是对不确定度有些看法和反对,都有哪些人史老在论坛里不止一次提到他们,其中马先生出现的坑怕最多,还有钱先生等等。其实现在这些人可能都成了不确定度的粉丝,不信就请史老亲自问问他们。GUM可能有不妥,甚至有错,但绝对没有错的如您说的那么不堪,错成这样马先生还在用,您该找他理论一下。
GUM是对误差理论的发展,您也在努力发展改造,只是您提出的基础理论是错误的,导致改造的结果自然也就是错误的。纠正“统计测量”和“交叉系数”的错误观点,也就自然得到标准偏差在什么情况下要除以根号n,您的“误差合成方法”也就知道该如何合成。
我说,一个人说,您不重视,这么多人说,您该好好考虑一下吧。 本帖最后由 都成 于 2017-12-18 16:43 编辑
csln 发表于 2017-12-18 15:17
这是史先生称为旗手的马先生评的一个不确定度,从测量值看,“手段”1E-8,“对象”1.8E-7,是典型“统计 ...
马先生应该没错。马先生应该是史先生认定的高人,史先生应该将自己批驳不确定度七大公式的观点与马先生交流一下,特别是“统计测量”和“交叉系数”的观点,将结果及时与我们分享。 狼烟 发表于 2017-12-17 14:45
1 统计测量,σ不能除以根号N。不论测量多少次。
这是不是就意味着不管测量几次,其结果的可信度基本是一样 ...
-
【史文】
1 统计测量,σ不能除以根号N。不论测量多少次。
【狼烟先生质疑】
这是不是就意味着不管测量几次,其结果的可信度基本是一样的,没有量级的差距?这可能吗?那为何要增加测量次数?
【史辩】
σ本身的标准偏差为
σσ = σ/√
-
表 1
测量次数 N 4 6 10 20 30 100
σ的相对分散性 41% 32% 24% 16% 13% 7%
-
测量次数少时,σ的相对分散性(σσ/σ)大。N至少要取10。应取20或30。时频的短稳测量规定取100.
表1 说明,重复测量的次数N必须足够大。
-
本题讲的是“统计测量”,被测量是统计变量。
当被测量是常量时,测量的标准偏差σ是测量仪器的随机误差。这时,分散性是手段的问题,手段可以改进。测得值的随机误差是σ平。就是说,对基础测量(常量测量)来说可以除以根号N.
-
-
【史文】
2 量值必须取平均值。
【狼烟先生质疑】
在测量次数足够多时,平均值和峰值是一样的。测量次数减少时,平均值应该先于峰值变化,因为在均值等于峰值时,随便去掉一个测量结果(只要不是峰值)均值就变化,所以不能用均值。 -
【史辩】
不知你说的“峰值”是什么?通常,峰值指最大可能值,平均值怎会等于峰值?弄不懂你表达的是什么情况,是什么意思。
“不能用均值”是错话。不论是基础测量(被测量是常量),还是统计测量(被测量随机变量),测量N次后,都必须用测量值的平均值M平当被测量的量值,这就是测得值。在统计测量中,随机变量L的测量结果是:
L = M平±3σ (1)
我在文中已说明,取M平当测得值,以3σ为半宽的区间,包含Li(L的全部可能值,这里不是常量测量的包含一个真值的问题)的概率是99.7%;如果取其他值,则包含概率可能很小。
史锦顺 发表于 2017-12-18 17:42
-
【史文】
1 统计测量,σ不能除以根号N。不论测量多少次。
平均值等于峰值,能是什么峰值,概率峰值呗。 史锦顺 发表于 2017-12-18 17:42
-
【史文】
1 统计测量,σ不能除以根号N。不论测量多少次。
统计测量这个概念是我唐突了,因为好久不在行业内了,对概念还保留在过去的印象中。
我的理解是,统计测量是为了更准确的测量被测量而增加测量次数,然后得出被测量的结论。如果您的统计测量的概念不一致,是我唐突,需要学习。
对手段的不确定的认定,确实是个大问题。这个是要尽量消灭被测量的影响。为了消灭被测量的影响,就要得出假定真值的尽量小的不确定度,如果不除以根号N,多次测量失去了意义。比较单次结果的最大标准偏差和多次测量除根号N的差距,可得手段的进步空间。否则这2个偏差会很小吧,那么手段问题就都没有了。
不在行业里,用词不一定恰当,请指教。 如果被测量稳定,用正太分布的特征值,就应该可以得到方法的进步空间。
如果被测量不稳定,相同条件下的一组测量数据,其数量再多也无法区分是被测量的不确定度还是方法手段的不确定度。 狼烟 发表于 2017-12-18 19:09
统计测量这个概念是我唐突了,因为好久不在行业内了,对概念还保留在过去的印象中。
我的理解是,统计测 ...
史先生先不要考虑这个回复,我越想越混乱了,先留在那儿作为我不谨慎的证据吧。也方便我思路的延续。如果您愿意赐教更好 狼烟 发表于 2017-12-18 18:53
平均值等于峰值,能是什么峰值,概率峰值呗。
我好像把所求值当成已知数用了 本帖最后由 史锦顺 于 2017-12-19 10:01 编辑
吴下阿蒙 发表于 2017-12-18 12:03
单值的标准偏差σ,随着测量次数增大而趋于一个常数,它是随机变量分散性的表征量。平均值的标准偏差σ平, ...
-
【史文】
单值的标准偏差σ,随着测量次数增大而趋于一个常数,它是随机变量分散性的表征量。平均值的标准偏差σ平,随着测量次数增大而缩小,并趋于零。
【吴下阿蒙论述】
史老对这句话进行了论证,但这句话难道不正好反映了是否除以根号n的问题嘛?
【史评】
不。这句话只是σ与σ平对N的不同的关系,是它们本身的性质。计量界没有不同的理解。现在讨论的是σ与σ平的用法问题,就是:什么场合用σ,什么时候用σ平。
史锦顺的理论是:在基础测量(被测量是常量)中,用σ平;在统计测量(被测量是随机变量)中,用σ。
-
-
【吴下阿蒙论述】
对一个物理量测量10次的平均值A,对一个物理量测量20次的平均值B。那么A和B应该哪一个更接近此物理量的真值呢?如果选用单次标准偏差,测的次数越多,偏差越大,这不是很不合理嘛?
【史评】
测得值接近真值程度的概念,是基础测量的概念。在基础测量中,平均值B比平均值A更接近真值,计量界没有不同认识。单次标准偏差的标准偏差为
σσ = σ/√
随着测量次数N增大,则σσ越来越小,就是说σ趋于一个稳定值,不是越来越大。基础测量的σ是测量仪器的随机误差,这是手段的问题,可以改进,要用σ平来表征M平对真值的接近程度。就是说,在基础测量中,取M平用σ平,即除以根号N.
-
在统计测量中,测量仪器的误差范围远小于被测量本身的变化,测得值各个是真值,此时没有再称真值的必要,测量值、真值、被测量的客观值三者一致,称为量值。统计测量的着眼点是被测的量值的随机变化的特性。表征随机变量分散性的量是单值的σ。σ本身还有分散性,标准偏差的标准偏差为
σσ = σ/√
随着测量次数N增大,则σσ越来越小,就是说σ趋于一个稳定值,这个值是随机变量的表征量。
平均值的标准偏差是σ平=σ/√N,随N的增大而缩小,并趋于零。它不是随机变量本身的性质,σ平不能当随机变量的表征量。就是不能除以根号N.
统计测量中用单值的σ,却又必须取M平当测得值,才能保证包含概率。此点通常被误解,必须弄清楚。其办法是如主帖那样,算一算各种情况下区间的包含概率,印象就深刻了,就明白了。
-
此后你叙述的两种情况,第一种是基础测量,除以根号N,用σ平是对的;而第二种情况,稳压电源的电压输出值,是随机变量,所用测量仪器的误差范围远小于电源电压变化值。电压值是统计变量,测量是统计测量。
对统计变量的测量(统计测量),要遵守两条:
1)用σ,而不用σ平,即不除以根号N;
2)用M平(量值取平均值)。
你的作法是对的。
-
我提出的“两类测量”区分的概念,是客观存在,甚至是测量的一项法则,是必须遵守的,违者必错。本栏目的那几位有不同意见,我认为是不理解这个客观存在,更不承认“两类测量”理论对实际工作的指导意义。
“两类测量”的概念的提出,对不确定度体系是一个严重的打击。马凤鸣先生按不确定度体系的作法,在统计测量中用σ平,即除以根号N,是错误的。名人一经上了不确定度体系的贼船,也要摔跟头。
-
很高兴看到,你的作法与我的理论巧合。更一般些,提高到理论的高度,就可以普遍应用,就可以识破不确定体系的弊病与错误。
-
本帖最后由 csln 于 2017-12-19 10:59 编辑
结论:
1 统计测量,σ不能除以根号N。不论测量多少次。
2 量值必须取平均值。
主帖用了很大篇幅试图证明结论1、2,实际上并没有证明,对于结论1,并没有任何支持性证明,这里面可能有个问题是大家理解的σ平不在一条道上,如果是这样,无论如何争论是不会有结果的,建议史先生把自己说的σ平的物理意义说明一下(比如重复测量条件下重复测量了100次,σ平物理意义是什么?),或许大家有可能理解您说的1 统计测量,σ不能除以根号N。不论测量多少次。
对于结论2, 事实上也没有证明,随机变量,越靠近总体均值,概率密度越高,这是不需要证明的。史先生还强调一个事实,“统计测量,个个是真值”,这是没有疑问的,如此就不能说一次重复测量中一个测量结果比另一个测量结果好,也不能说数学期望就比其他测量结果好,因为每个测得值都是真值,都是等价的,没有理由说一个真值比另一个真值更真,平均值并不优越于任何一个真值 史锦顺 发表于 2017-12-19 09:58
-
【史文】
单值的标准偏差σ,随着测量次数增大而趋于一个常数,它是随机变量分散性的表征量。平 ...
谢谢解惑~~~~~~~~~ 狼烟 发表于 2017-12-17 14:45
1 统计测量,σ不能除以根号N。不论测量多少次。
这是不是就意味着不管测量几次,其结果的可信度基本是一样 ...
我理解,重复性测量的n是和自由度相关的。如果重复测量的次数偏少,自由度低,您的标准差可信度是不足的。规程要求大于10次,但实际中,有时候要求更多。
页:
[1]
2