本帖最后由 史锦顺 于 2017-10-16 19:13 编辑
-
论测量仪器误差的分布
-
史锦顺
-
关于误差分布的理论,对测量计量的实际工作很重要,直接关系到几项实际工作的作法。
求知误差分布规律的目的是什么?第一,合成误差,包括建立误差合成公式,如何由分项误差求知总误差,如何由几项直接测量的误差范围求间接测量的误差范围;第二,决定包含因子k的取值;第三,决定包含因子与哪项相乘。
-
(一)统计方式的区分是认识分布规律的前提
误差理论的核心是误差分析与误差合成。
误差合成,要依据误差分布规律。
误差分布规律的前提是统计方式。
测量计量领域有两种测量模式。两种测量模式决定了两种统计方式。
第一种测量模式是用一台仪器多次(例如20次)测量同一个量。测量按时刻顺序进行,测量值的不同,表现在时间领域中,对各个测量值的统计,称为“时域统计”。
第二种测量模式是用同一种型号的多台(例如20台)仪器测量同一个量。测量按各台编号,各台仪器的测得值不同,对各个测得值的统计,称为“台域统计”。
-
测量仪器的实际应用,计量、测量、以及出厂检验、用户验收,都是第一种模式。因此,讨论测量计量,统计方式必须是“时域统计”。制造厂的测量,主要是“时域统计”,有时也可能有第二种模式,即“台域统计”。这种“台域统计”是制造厂的事,涉及范围很小。仪器出厂后,在计量、测量中,都不是用多台仪器测量同一量(既无可能也无必要),因而“台域统计”在计量、测量中没有用场。就是说,测量计量学研究统计规律,必须是“时域统计”;研究分布,必须是“时域统计”中的量值或误差的分布规律。
-
为了说明时域统计与台域统计的区别,举个有些类似的例子。尽管细节有区别,但在两类统计的划分的必要性上,是相通的。
假设有个“文体明星班”,看看该如何对明星们的身高进行统计。身高资料来自网上,不一定准确。
-
A 单位内成员的身高统计。“明星域”统计。
明星班有10位明星。司务长要给明星们准备礼仪服装,每位明星的身高不同。大个子姚明用料多,小个子潘长江用料少。不能只看那个人的需要,而要进行统计,以求明星班身高的整体特性。于是进行如下的统计。
-
表1 明星班成员的身高资料
编号 姓名 身高 与平均值之差(mm)
1 姚明 2.26 m + 375
2 易建联 2.13 m + 245
3 孙杨 1.98 m + 95
4 朱婷 1.95 m + 65
5 刘翔 1.89 m + 5
6 张光北 1.84 m - 45
7 唐国强 1.78 m -105
8 小沈阳 1.74 m -145
9 范冰冰 1.68 m -205
10 潘长江 1.60 m -285
身高平均值 1.885 m
分布规律 均匀分布(矩形分布)
-
B 个人的身高统计。时域统计。
裁缝受姚家委托为姚明准备四季服装,包括买布。买布必须掌握姚明的身高资料。
资料1 从网上查得的数据:姚明身高 2.26 m(CBA数据);2.28m(NBA数据)
资料2 明星班的“明星域统计”结果(表1)
资料3 姚明在计量界的粉丝提供的姚明身高的精确测量的“时域统计”结果(虚构)。
-
表2 时域统计数据
重复测量20次,平均值2.260m
测量值与平均值之差(单位mm)
+3 1次
+2 2次
+1 4次
0 6次
-1 4次
-2 2次
-3 1次
平均值 2.260m
标准偏差 σ ≈ 1.5mm
分布规律 正态分布
偏差范围 3σ = 1.5×3 =4.5 mm
美国火箭队公布之身高,比统计平均值大20mm,差值远大于3σ(4.5mm)。经记者查问,系穿鞋测量,多了鞋底的厚度。数据舍弃。
-
以上,可以看成是一段笑谈。但有一点是值得思考的,那就是有两种统计方式。
对明星班的统计结果,即平均值、标准偏差、分布规律,都是针对特定的明星班的统计结果。对明星班的后勤工作,该买多少布料,是有用的。
但是,明星班具体个人,离开明星班以后(类似于仪器出厂以后),原来在明星班中的“明星域统计”,对明星个人来说,是没有用的。准备衣料要按自己身高的“时域统计”。明星班的身高平均值,按“明星域统计”得到的平均值1.885m,对姚明无用(对其他人也无用);给姚明准备衣料,必须按“时域统计”得到的身高值2.160m.
-
对测量仪器来说,通常认为的“均匀分布”,适用于对多台仪器测量一个量的情况,仅仅在出厂前,分析批量产品性能时可用;测量仪器出厂后,计量、测量中是“用一台仪器测量一个量”,必须是“时域统计”。
本文说明,在时域统计中,测量仪器的误差分布是“有偏正态分布”。“纯系统误差”是“δ分布”,“纯随机误差”是“无偏正态分布”。
-
(二)高斯正态分布理论
正态分布,有三种形式:有偏正态分布、无偏正态分布、标准正态分布。
1)有偏正态分布:测得值M,期望值μ(图中M平代表),标准偏差σ,概率密度函数表达式为:
p(M) = {1/ [σ√(2π)]} exp [– (M-μ)2 / (2σ2)] (1)
2)无偏正态分布:期望值μ=0,标准偏差为σ.
随机误差元记为ξ,真值记为Z,系统误差记为β
M= Z + β +ξ
ξ = M – Z – β = M- μ (2)
(2)代入(1),且以M平为零点,图形平移,有
p(ξ) = {1/ [σ√(2π)]} exp [–ξ2 / (2σ2)] (3)
3)标准正态分布,期望值μ=0,标准偏差σ =1。令t =ξ/σ,则有
p(t) = {1/ [√(2π)]} exp (–t2 / 2) (4)
(4)式是数学手册上的数值表的“标准正态分布概率密度函数”。
-
(三)测量仪器的误差分布,是有偏正态分布
当前,不确定度体系的不确定度评定,绝大多数评者认为仪器的误差分布是均匀分布,因而B类标准不确定度的公式为
uB = MPEV /√3 (5)
都成有不同观点,他通过实验,得知电能表的误差分布是正态分布(无偏正态分布)。说仪器误差是“均匀分布”的不确定度者,是一种想象,是假设,都成的实验驳斥了“均匀分布”说。假设经过实验证实,才是科学;假设与实验不符合,就是谬说。假设而不证实,不是科学的作风。
科学理论,必须能证实,也能证否。不确定度体系与某些误差理论书籍,把误差划分为“已知”“未知”两种,又说对“未知的”才统计,这是错误的。分析与研究要根据事实,理论的最高原则是符合客观规律。一种理论,不能用实验证明,那就是错误的。都成的实验,一组200台,一组400台,是很有说服力的实验。都成的“正态分布说”正确,那就要否定“均匀分布说”。
不确定度的怪论说:我说的是未知的情况,已知的情况不能成为证据。这是掩盖错误、拒抗实验证实或证否的错误论调。
-
不确定度论者认为是“均匀分布”,相信不确定度体系的都成说是“正态分布”,内部矛盾了。哪个对呢?如果是台域统计(出厂前的多台仪器测量同一量),都成是对的,他有实验事实。不确定度体系认定的“均匀分布”是错误的,因为与实验事实不符。
但是,仪器的出厂检验,出厂后的计量、应用中的测量,这些通常的测量计量业务,都是用一台仪器测量一个量,必须是“时域统计”。在时域统计中,高斯正态分布理论,二百年前已经用函数的形式给出,测量仪器的误差分布是“有偏正态分布”。如图1。
-
-
-
概率密度公式中的μ-Z(图中以M平近似代表μ)是钟形曲线的偏倚量,是系统误差的值,是恒值。高斯给出的表达式,标准正态分布的曲线、概率积分数值表都是非常重要的。但高斯并没有详细讨论那个偏倚值(系统误差)。高斯的分析与计算,都是针对随机误差ξ。当今的学术界,把系统误差β(μ-Z)硬往随机误差ξ上套,是行不通的。不同性质的对象,要用不同的方法处理。
对随机变量,对随机误差,可以取方差;但对常量、对系统误差,不能取方差。系统误差的主要部分是恒值,而在重复测量(时段很短)中,系统误差就是常量,常量的方差为零,因此“取方差的路线”,完全抹煞了系统误差的存在与作用,是行不通的。整个不确定度体系的总设计,A类标准不确定度,B类标准不确定度,合成不确定度,扩展不确定度,都是为“走方差路线”而设立的。但是,因为系统误差的方差为零,方差的路线走不通。
不确定度体系合成公式错误。包含因子乘错地方,一招失手,全盘皆输。
-
问:你说“测量仪器的误差分布,是有偏正态分布”,有根据吗?
老史回答:有。
第一,高斯正态分布曲线
关于误差的高斯正态分布曲线,其中的偏倚值β=μ-Z是常量,就是测量仪器系统误差之值。仪器一般都有系统误差(频标比对器等只有随机误差,那是很少的特例),因此测量仪器的误差分布,一般是有偏正态分布。
第二,崔伟群指出:测量分两种模式:第一种模式是一台仪器重复测量一个量;第二种模式是多台仪器测量同一量值。史锦顺认为:单台仪器测量必须用“时域统计”,而第二种模式是台域统计。测量计量都是第一种模式,对应的必是“时域统计”。
第三,说“时域统计”中,单台测量仪器误差的分布是“有偏正态分布”,史锦顺有大量实验证明材料。上世纪八十年代,我国举行过“全国高稳晶振比对会”三届,每届测量15天,每届都有来自全国各地的优良晶振30台到40台,总计一百多台次。对这三届测量的数据(三本),笔者都进行了处理,并画出漂移率图形100多张。虽然未画正态分布图,但有一百多条老化率1E-9/日到2E-11/日的15天老化曲线,有五百多个短稳数据(每个数据来自100次重复测量),这样,在时域统计中,在15天中,每台仪器每天的“偏差分布图”都是“有偏正态分布图”,是极其肯定的。三届,一百多台次仪器,无一例外。
例如,比较著名的27所4号,每日钟形线(σ)基本不变,而系统误差的日变化(β的变化)是2E-11,这对比对会的要求(1E-7的准确度), 或平常检定频率计的要求(1E-8)小到数千分之一,是完全可以忽略的,应该认为系统误差是恒值。
图2 是4#晶振的频率偏差示意图。第1天到第15天,每天一张;肉眼几乎看不出差别,这里选用第1天与第15天的两张图,其他图都介于二者之间,从略。
-
图2.1 4#晶振的频率偏差分布示意图 第1天
-
图2.2 4#晶振的频率偏差分布示意图 第15天
晶振如此,各种精密测量仪器也都是这样。用高等级的计量标准(在高档次上代表真值),仪器与标准的误差范围比超过一百,于是,重复测量,得到的仪器误差的统计直方图,必将是有偏正态分布的近似图。
客观规律如此,各种分析,各种理论,必须建立在这个基础上。
-
(四)误差理论的基础
测量仪器误差的分布是“有偏正态分布”,讨论误差合成,推导误差合成公式,必须以“有偏正态分布”为出发点。
-
4.1 纯系统误差是δ分布
高斯正态分布的几率密度函数,对仪器误差的表达是普适的。
p(M) = {1/ [σ√(2π)]} exp [– (M-μ)2 / (2σ2)] (1)
由公式(1),当随机误差越来越小,就是σ趋于0时,P(M)是μ点的δ函数。就是当M=μ时,概率密度无穷大(指数部分为0,e0为1;σ趋于0,则1/σ趋于无穷大),M≠μ时,指数趋于负无穷大(高阶),概率密度为零。概率密度区间内积分为1。只要取区间半宽R大于系统误差绝对值,包含概率100%.
由上分析,纯系统误差是δ分布。这是高斯误差密度分布函数的必然结果。
-
4.2 纯随机误差是无偏正态分布
(分析略)
4.3 既有系统误差又有随机误差的仪器,误差分布是“有偏正态分布”
(由高斯误差定律决定)
4.4 包含因子只能用于随机误差的分散性
测得值区间的包含因子k,只能与随机误差的标准误差相乘。系统误差可以加大认定量,但不能乘包含因子。
不确定度体系的作法是在以系统误差为主的仪器误差上乘包含因子,是错误的作法。
-
|