Page 62 - 202004期
P. 62

应用技术





               据模型的复杂程度呈负相关关系,数据集越                                    最值归一化算法:x          scale =(x-x min )/(x max -
               大,数据质量越好,数据模型的复杂程度越                              x )
                                                                  min
               低,反之数据集越小,数据质量越差,数据模                                   所有采集样本中漏水量最大值10000ml/

               型的复杂程度就越高,有时采集到数据的质                              s;最小漏水量100ml/s。
               和量差到一定程度,是根本无法建立起真实                                    样本1漏水量=(5000-100)/(10000-

               反映数据关系的数据模型的。可见数据的好                              100)≈0.49
               坏直接影响到数据模型的好坏,准确来说数                                    样本2漏水量=(3000-100)/(10000-

               据决定了数据模型优劣的上限,而好的算法                              100)≈0.29

               只是无限的接近这个上限,所以说数据比算                                    所 有 采 集 样 本中 管 网 压 力 最 大 值
               法重要的多。但由于数据采集需要涉及到该                              0.46MPa;最小漏水量0.15MPa。

               类型数据所在领域的专业技术,本文体量不                                    样本1管网压力=(0.35-0.15)/(0.46-
               足以将其一一叙述详尽,只能待后续以专题                              0.15)≈0.65

               形式加以完善。                                                样本2管网压力=(0.32-0.15)/(0.46-

                     3.3 数据归一化                                   0.15)≈0.55
                                                                                     表2
                     采集的不同类型数据由于采用了不同量
                                                                                 漏水量          管网压力(MPa)
               纲,可能会导致某些数据的数值过大或过小,                                 样本1           0.49            0.65

               对后续计算结果产生影响,我们举例说明,表1                                样本2           0.29            0.55
               为两个样本的漏水量与管网压力数据。                                      经过归一化的无量纲数据为纯数量,不


                                    表1                           带单位。样本1与样本2漏水量差值为0.2,管网
                                漏水量          管网压力(MPa)           压力的差值为0.1。经过这样归一化处理后的
                   样本1         5000ml/s          0.35
                                                                 数据可以消除因不同量纲数据导致的特征向
                   样本2         3000ml/s          0.32
                                                                 量空间扭曲,减小了数据模型的复杂程度。
                     可以看出样本1与样本2漏水量差值为
                                                                      4 机器学习
               2000,而管网压力的差值为0.03。显然漏水量
               数据在后续的计算影响过大。为了避免这种                                    经过数据量化,我们的到了漏水噪声的

               情况,必须将所有数据映射到同一尺度。将有                             相关数据,对于这样只有数据没有算法的问

               量纲的数据进行归一化处理,变成无量纲的                              题,常用的解决方法有大数据领域的数据挖
               数据。                                              掘,统计学的统计分析和人工智能领域的机

                     常用的归一化方法有最值归一化和均值                          器学习,这里我们选择了更加适合小样本和

               方差归一化,这里以最值归一化为例,它将所                             实用性的机器学习。机器学习源于统计分析,
               有数据映射到0-1之间                                      是一项更偏重实践的技术,通过数据来对机



               48  地下管线管理
   57   58   59   60   61   62   63   64   65   66   67