我正在构build一个程序来将双精度值转换为科学值格式(尾数,指数)。 然后我注意到下面
369.7900000000000 -> 3.6978999999999997428 68600000 -> 6.8599999999999994316
我也注意到了其他几个值的相同模式。 最大分数误差是
0.000 000 000 000 001 = 1*e-15
我知道在计算机中代表双精度值的不准确性。 这可以得出结论:我们得到的最大分数误差是1*e-15
? 什么是重要的呢?
我经历了堆栈溢出中浮点精度问题的大部分问题,但是我没有看到有关64位的最大分数误差的问题。
为了清楚我做的计算,我也提到了我的代码片段
double norm = 68600000; if (norm) { while (norm >= 10.0) { norm /= 10.0; exp++; } while (norm < 1.0) { norm *= 10.0; exp--; } }
现在我明白了
norm = 6.8599999999999994316; exp = 7
您得到的数字与double
数据类型的机器epsilon有关。
一个double
是64位长,1位为符号,11位为指数,52位为尾数部分。 double
的价值是由
1.mmmmm... * (2^exp)
由于尾数只有52位,所以当加到1.0
时,任何低于2^-52
double
值都会完全丢失,因为它的意义小。 在二进制中, 1.0 + 2^-52
就是
1.000...00 + 0.000...01 = 1.000.....01
显然,任何更低的值都不会改变1.0
的值。 你可以自己验证一个程序中的1.0 + 2^-53 == 1.0
。
这个数字2^-52 = 2.22e-16
被称为机器epsilon,并且是一个浮点运算期间出现的相对误差的上界,因为具有double
值的舍入误差。
同样, float
的尾数为23位,所以它的机器epsilon是2^-23 = 1.19e-7
。
你得到1e-15
的原因可能是因为当你执行许多算术运算时积累的错误,但我不能说,因为我不知道你正在做的确切的计算。
编辑 :我已经看着你的问题68600000相对错误。
首先,您可能有兴趣知道,如果您将步骤分解为四舍五入错误,则可能会改变您的计算结果:
686.0/10.0 = 68.59999999999999431566 686.0/10.0/10.0 = 6.85999999999999943157 686.0/100.0 = 6.86000000000000031974
在第一行中,最接近68.6的double
低于实际值,但在第三行中,我们看到最接近6.86的double
。
如果我们看看程序的绝对错误 e_abs = abs(v-v_approx)
,我们看到它是
6.8600000 - 6.85999999999999943156581139192 ~= 5.684e-16
然而, 相对误差 e_abs = abs( (v-v_approx)/ v) = abs(e_abs/v)
将是
5.684e-16 / 6.86 ~= 8.286e-17
这确实低于我们的2.22e-16
机器epsilon。
如果你想知道关于浮点运算的所有细节, 这是一篇你可以阅读的着名论文。