Page 64 - 202004期
P. 64

应用技术





                                                                      通 过 训练 样 本的特 征向量 和 标 签 在
                                                                   T
                                                                ω x+b=0模型的限定下,把待定参数“ω”和
                                                                “b”求出来,当“ω”和“b”的取值确定,也

                                                                就是特征空间中的用于区分样本的决策边界
                                                                (超平面)已经确定。

                                                                      第三步、线性可分的完整数学描述

                                    图3                                一个训练集{(x ,y )}         i=1~N 线性可分是
                                                                                      i
                                                                                         i
               直线称为决策边界,两条平线称为间隔边界。                             指,存在一个(ω、b)使得,对任意i=1~N有
                                                                                       T
               d为间隔,和平行线重合的向量x 、x 、x 为训                               A:若y =+1,则ω x+b≥0
                                               1   2   3                     i
                                                                                      T
               练样本集的支持向量,SVM是一个寻求间隔                                   B:若y =-1,则ω x+b<0
                                                                            i
               d最大化的方法,它给出的这条直线只和支持                                   由于y取值为+1或-1,可以将A,B简化为
                                                                      T
               向量有关,这也是为什么支持向量机可以用在                              y[ω x+b] ≥0。
                                                                  i
               解决小训练样本的问题上。                                           第四步、SVM的优化

                     在进行支持向量机的数学表述的同时,我                               前文谈到SVM需要寻找间隔的最大值,
               们需要理清机器学习的步骤并做一些定义:                              这是一个求最优解的问题,首先要建立该问

                     第一步、定义训练样本与标签                              题的数学模型,通过线性方程的性质和点

                     先假设训练样本是线性可分的,每一个                          到平面间的距离公式,可以推导出间隔距离
               训练样本由两部分组成,特征向量和标签,                              d=1/||ω|| 2

               就我们实际问题来说:特征向量是由声强、频                                   那 么 间 隔 最 大 化 问 题 转 换为 在 y             i
                                                                    T
               率、压力、管径、管道材质等漏水声音数据构                             [ω x+b] ≥1(i=1~N)的限制条件下,求ω模
               成的一个高维向量;标签即是否是漏水点。                              的平方的最小值问题。

                     定义训练数据和标签,(x ,y ),(x ,                           限制条件保证训练样本满足线性可分,
                                                         2
                                               1
                                                  1
               y )……(x ,y )                                     而d=1/||ω|| 是一个凸函数,凸函数局部的极
                                                                            2
                          N
                              N
                 2
                     其中x为特征向量,y为标签数据,为了后                        值就是它全局的极值,要么无解,要么只有一
               面计算方便,这里y取值为+1或-1。                               个极小值。之所以说支持向量机有美妙的数
                     第二步、构建线性模型                                 学推导做支撑就在于此,他将整个优化问题
                     使用方程构建一个可将样本分类的决策                          转换成了凸优化问题,列出了这个问题人的工
               边界的模型,并在模型中预留一些待定参数,                             作就可以告一段落,具体解出最优解可以交

                                                  T
               决策边界(超平面)的线性方程:ω x+b=0                           给计算机来完成。
                     ω为向量(决策边界超平面的法向量),                               至此,SVM解决线性可分问题已经分析
                     b为常数(决策边界超平面的截距)                           完毕。



               50  地下管线管理
   59   60   61   62   63   64   65   66   67   68   69