本文共 5192 字,大约阅读时间需要 17 分钟。
支持向量机是一个相对较新和较先进的机器学习技术,最初提出是为了解决二类分类问题,现在被广泛用于解决多类非线性分类问题和回归问题。继续阅读本文,你将学习到支持向量机如何工作,以及如何利用R语言实现支持向量机。
简单介绍下支持向量机是做什么的:
假设你的数据点分为两类,支持向量机试图寻找最优的一条线(超平面),使得离这条线最近的点与其他类中的点的距离最大。有些时候,一个类的边界上的点可能越过超平面落在了错误的一边,或者和超平面重合,这种情况下,需要将这些点的权重降低,以减小它们的重要性。
这种情况下,“支持向量”就是那些落在分离超平面边缘的数据点形成的线。
此时可以将数据点投影到一个高维空间,在高维空间中它们可能就变得线性可分了。它会将问题作为一个带约束的最优化问题来定义和解决,其目的是为了最大化两个类的边界之间的距离。
此时支持向量机仍将问题看做一个二元分类问题,但这次会有多个支持向量机用来两两区分每一个类,直到所有的类之间都有区别。
让我们看一下如何使用支持向量机实现二元分类器,使用的数据是来自MASS包的cats数据集。在本例中你将尝试使用体重和心脏重量来预测一只猫的性别。我们拿数据集中20%的数据点,用于测试模型的准确性(在其余的80%的数据上建立模型)。
1 2 3 4 | # Setup # 先需要安装SVM包e1071; library ( e1071 ) data ( cats , package = "MASS" ) inputData < - data . frame ( cats [ , c ( 2 , 3 ) ] , response = as . factor ( cats $ Sex ) ) # response as factor |
传递给函数svm()的关键参数是kernel、cost和gamma。Kernel指的是支持向量机的类型,它可能是线性SVM、多项式SVM、径向SVM或Sigmoid SVM。Cost是违反约束时的成本函数,gamma是除线性SVM外其余所有SVM都使用的一个参数。还有一个类型参数,用于指定该模型是用于回归、分类还是异常检测。但是这个参数不需要显式地设置,因为支持向量机会基于响应变量的类别自动检测这个参数,响应变量的类别可能是一个因子或一个连续变量。所以对于分类问题,一定要把你的响应变量作为一个因子。
1 2 3 4 5 6 | # linear SVM svmfit < - svm ( response ~ . , data = inputData , kernel = "linear" , cost = 10 , scale = FALSE ) # linear svm, scaling turned OFF print ( svmfit ) plot ( svmfit , inputData ) compareTable < - table ( inputData $ response , predict ( svmfit ) ) # tabulate mean ( inputData $ response != predict ( svmfit ) ) # 19.44% misclassification error |
径向基函数作为一个受欢迎的内核函数,可以通过设置内核参数作为“radial”来使用。当使用一个带有“radial”的内核时,结果中的超平面就不需要是一个线性的了。通常定义一个弯曲的区域来界定类别之间的分隔,这也往往导致相同的训练数据,更高的准确度。
1 2 3 4 5 6 | # radial SVM svmfit < - svm ( response ~ . , data = inputData , kernel = "radial" , cost = 10 , scale = FALSE ) # radial svm, scaling turned OFF print ( svmfit ) plot ( svmfit , inputData ) compareTable < - table ( inputData $ response , predict ( svmfit ) ) # tabulate mean ( inputData $ response != predict ( svmfit ) ) # 18.75% misclassification error |
你可以使用tune.svm()函数,来寻找svm()函数的最优参数。
1 2 3 4 5 6 7 8 9 10 | ### Tuning # Prepare training and test data set . seed ( 100 ) # for reproducing results rowIndices < - 1 : nrow ( inputData ) # prepare row indices sampleSize < - 0.8 * length ( rowIndices ) # training sample size trainingRows < - sample ( rowIndices , sampleSize ) # random sampling trainingData < - inputData [ trainingRows , ] # training data testData < - inputData [ - trainingRows , ] # test data tuned < - tune . svm ( response ~ . , data = trainingData , gamma = 10 ^ ( - 6 : - 1 ) , cost = 10 ^ ( 1 : 2 ) ) # tune summary ( tuned ) # to select best gamma and cost |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | # Parameter tuning of 'svm': # - sampling method: 10-fold cross validation # # - best parameters: # gamma cost # 0.001 100 # # - best performance: 0.26 # # - Detailed performance results: # gamma cost error dispersion # 1 1e-06 10 0.36 0.09660918 # 2 1e-05 10 0.36 0.09660918 # 3 1e-04 10 0.36 0.09660918 # 4 1e-03 10 0.36 0.09660918 # 5 1e-02 10 0.27 0.20027759 # 6 1e-01 10 0.27 0.14944341 # 7 1e-06 100 0.36 0.09660918 # 8 1e-05 100 0.36 0.09660918 # 9 1e-04 100 0.36 0.09660918 # 10 1e-03 100 0.26 0.18378732 # 11 1e-02 100 0.26 0.17763883 # 12 1e-01 100 0.26 0.15055453 |
结果证明,当cost为100,gamma为0.001时产生最小的错误率。利用这些参数训练径向支持向量机。
1 2 3 4 5 | svmfit < - svm ( response ~ . , data = trainingData , kernel = "radial" , cost = 100 , gamma = 0.001 , scale = FALSE ) # radial svm, scaling turned OFF print ( svmfit ) plot ( svmfit , trainingData ) compareTable < - table ( testData $ response , predict ( svmfit , testData ) ) # comparison table mean ( testData $ response != predict ( svmfit , testData ) ) # 13.79% misclassification error |
1 2 3 | F M F 6 3 M 1 19 |
一个2-色的网格图,能让结果看起来更清楚,它将图的区域指定为利用SVM分类器得到的结果的类别。在下边的例子中,这样的网格图中有很多数据点,并且通过数据点上的倾斜的方格来标记支持向量上的点。很明显,在这种情况下,有很多越过边界违反约束的点,但在SVM内部它们的权重都被降低了。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 | # Grid Plot n_points_in_grid = 60 #num grid points in a line x_axis_range & lt ; - range ( inputData [ , 2 ] ) # range of X axis y_axis_range & lt ; - range ( inputData [ , 1 ] ) # range of Y axis X_grid_points & lt ; - seq ( from = x_axis_range [ 1 ] , to = x_axis_range [ 2 ] , length = n_points_in_grid ) # grid points along x-axis Y_grid_points & lt ; - seq ( from = y_axis_range [ 1 ] , to = y_axis_range [ 2 ] , length = n_points_in_grid ) # grid points along y-axis ll_grid_points & lt ; - expand . grid ( X_grid_points , Y_grid_points ) # generate all grid points names ( all_grid_points ) & lt ; - c ( & quot ; Hwt & quot ; , & quot ; Bwt & quot ; ) # rename all_points_predited & lt ; - predict ( svmfit , all_grid_points ) # predict for all points in grid color_array & lt ; - c ( & quot ; red & quot ; , & quot ; blue & quot ; ) [ as . numeric ( all_points_predited ) ] # colors for all points based on predictions plot ( all_grid_points , col = color_array , pch = 20 , cex = 0.25 ) # plot all grid points points ( x = trainingData $ Hwt , y = trainingData $ Bwt , col = c ( & quot ; red & quot ; , & quot ; blue & quot ; ) [ as . numeric ( trainingData $ response ) ] , pch = 19 ) # plot data points points ( trainingData [ svmfit $ index , c ( 2 , 1 ) ] , pch = 5 , cex = 2 ) # plot support vectors |