2018/4/16 15:09:54当前位置推荐好文程序员浏览文章

最近在做机器学习身份认证的过程中,使消耗SVM(支持向量机)分类器效果很好,但是有一个无法避免的问题就是训练集必需有合法消耗户和非法消耗户的数据,才可以训练分类器。但是实际应消耗中只可以拿到合法消耗户的数据集,没有办法拿到非法消耗户的数据集。

为理解决这个问题我目前想到了两种方法:

方法1.在实际应消耗中首先在系统里面放几个提前收集好非法消耗户的数据,而后再实际应消耗中只要要合法消耗户的数据就可正常使消耗SVM分类器,但是这种方法有肯定的缺陷,并且并未真正处理问题,因而我查阅相关文献,理解了少量其余处理方案。

方法2.使消耗单分类器,目前这方面的研究如同也不多,单分类器不像多分类器那样会搜索出很多种分类器,我在网上搜索到的单分类器只有三种,一般消耗于离群检验和异常点检测。                             三种分类器分别为:(1)OneClassSVM(2)EllipticEnvelope(3)IsolationForest                  同时再提取特征的时候一般是提取基于距离的特征,同普通的机器学习分类不同的是再特征提取之后多了一个步骤,需要计算特征向量之间的距离矩阵来形容特征之间的类似性,而后使消耗上述三种单分类器训练消耗户模型。

目前我没有进行提取基于距离的特征使消耗SVM二分类正确率再95%以上,但是使消耗OneClassSVM单分类器时正确率只有68%,后续还需要计算距离矩阵,验证基于距离的特征矩阵可以否使消耗单分类器达到一个很高的正确率。

总结:

1.其实单分类器本质上是无监督学习,而二分类或者者多分类SVM是带标签的监督性学习,因而从这方面来讲监督性学习的正确率应该是会比无监督学习分类器的正确率高少量。

2.机器学习中特征很重要,必需要结合领域知识提取代表性的特征,同时使消耗少量特征提取方法比方PCA等来提取更具代表性的特征来提高最终的分类正确率。

网友评论