Page 62 - 202004期
P. 62
应用技术
据模型的复杂程度呈负相关关系,数据集越 最值归一化算法:x scale =(x-x min )/(x max -
大,数据质量越好,数据模型的复杂程度越 x )
min
低,反之数据集越小,数据质量越差,数据模 所有采集样本中漏水量最大值10000ml/
型的复杂程度就越高,有时采集到数据的质 s;最小漏水量100ml/s。
和量差到一定程度,是根本无法建立起真实 样本1漏水量=(5000-100)/(10000-
反映数据关系的数据模型的。可见数据的好 100)≈0.49
坏直接影响到数据模型的好坏,准确来说数 样本2漏水量=(3000-100)/(10000-
据决定了数据模型优劣的上限,而好的算法 100)≈0.29
只是无限的接近这个上限,所以说数据比算 所 有 采 集 样 本中 管 网 压 力 最 大 值
法重要的多。但由于数据采集需要涉及到该 0.46MPa;最小漏水量0.15MPa。
类型数据所在领域的专业技术,本文体量不 样本1管网压力=(0.35-0.15)/(0.46-
足以将其一一叙述详尽,只能待后续以专题 0.15)≈0.65
形式加以完善。 样本2管网压力=(0.32-0.15)/(0.46-
3.3 数据归一化 0.15)≈0.55
表2
采集的不同类型数据由于采用了不同量
漏水量 管网压力(MPa)
纲,可能会导致某些数据的数值过大或过小, 样本1 0.49 0.65
对后续计算结果产生影响,我们举例说明,表1 样本2 0.29 0.55
为两个样本的漏水量与管网压力数据。 经过归一化的无量纲数据为纯数量,不
表1 带单位。样本1与样本2漏水量差值为0.2,管网
漏水量 管网压力(MPa) 压力的差值为0.1。经过这样归一化处理后的
样本1 5000ml/s 0.35
数据可以消除因不同量纲数据导致的特征向
样本2 3000ml/s 0.32
量空间扭曲,减小了数据模型的复杂程度。
可以看出样本1与样本2漏水量差值为
4 机器学习
2000,而管网压力的差值为0.03。显然漏水量
数据在后续的计算影响过大。为了避免这种 经过数据量化,我们的到了漏水噪声的
情况,必须将所有数据映射到同一尺度。将有 相关数据,对于这样只有数据没有算法的问
量纲的数据进行归一化处理,变成无量纲的 题,常用的解决方法有大数据领域的数据挖
数据。 掘,统计学的统计分析和人工智能领域的机
常用的归一化方法有最值归一化和均值 器学习,这里我们选择了更加适合小样本和
方差归一化,这里以最值归一化为例,它将所 实用性的机器学习。机器学习源于统计分析,
有数据映射到0-1之间 是一项更偏重实践的技术,通过数据来对机
48 地下管线管理

