首页 技术 正文
技术 2022年11月20日
0 收藏 740 点赞 2,308 浏览 1583 个字

一、加载数据(正样本、负样本特征)

def loadSimpData():
#样本特征
datMat = matrix([[ 1. , 2.1, 0.3],
[ 2. , 1.1, 0.4],
[ 1.3, 1. , 1.2],
[ 1. , 1. , 1.1],
[ 2. , 1. , 1.3],
[ 7. , 2. , 0.35]])
#正负样本标志
classLabels = [1.0, 1.0, 1.0, -1.0, -1.0, -1.0]
return datMat,classLabels

如上,总共有6个训练样本(前三个为正样本,后三个为负样本),每个样本总共有3个特征,以上6个样本的特征值如下:

正样本1:[ 1. ,  2.1,  0.3]

正样本2:[ 2. ,  1.1,  0.4]

正样本3:[ 1.3,  1. ,  1.2]

负样本1:[ 1. ,  1. ,  1.1]

负样本2:[ 2. ,  1. ,  1.3]

负样本3:[ 7. ,  2. ,  0.35]

二、训练一个弱分类器(选出一个特征和其对应的阈值)

训练弱分类器的过程就是从已有的特征中选出一个特征以及其对应的阈值,使样本分错的错误率最低,即寻找一个最小分错率的过程。

  1. 最小错误率初始化为无穷大;
  2. 遍历样本的所有特征(本例子每个样本有三个特征,即遍历这三个特征值);
  3. 求出该特征值步长(不同特征不一样),(最大特征值-最小特征值)/步长移动次数,如本例,假设步长移动次数为10,则第一个特征步长为(7-1)/10 = 0.6;
  4. 根据特征值步长开始从最小特征值遍历到最大特征值;
  5. 遍历判断符号,大于还是小于;
  6. 计算出阈值(根据最小特征值及步长),根据阈值、符号、及特征索引、开始对样本分类;
  7. 根据每个样本权重以及分类结果计算分错率,若该分错率小于最小分错率,则更新最小分错率;
  8. 返回最小分错率下的特征索引、符号、阈值,即得到弱分类器。

代码实现如下:

def buildStump(datMat,classLabels,D):
dataMatrix = mat(datMat); labelMat = mat(classLabels).T
m,n = shape(dataMatrix)
numSteps = 10.0; bestStump = {}; bestClasEst = mat(zeros((m,1)))
minError = inf #最小错误率初始化为无穷大
for i in range(n):
rangeMin = dataMatrix[:,i].min(); rangeMax = dataMatrix[:,i].max(); stepSize = (rangeMax-rangeMin)/numSteps
for j in range(-1,int(numSteps)+1):
for inequal in ['lt', 'gt']:
threshVal = (rangeMin + float(j) * stepSize) predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)
errArr = mat(ones((m,1)))
errArr[predictedVals == labelMat] = 0
weightedError = D.T*errArr if weightedError < minError:
minError = weightedError
bestClasEst = predictedVals.copy()
bestStump['dim'] = i
bestStump['thresh'] = threshVal
bestStump['ineq'] = inequal
return bestStump,minError,bestClasEst

三、训练结果

弱分类器结果:

特征索引:0

符号:大于

阈值:1.6000000000000001

最小分错率:

0.33333333(可见单独一个弱分类器在以上样本中无法做到完全分对)

分类结果:

[ 1.]
[-1.](分错)
[ 1.]
[ 1.]  (分错)
[-1.]
[-1.]

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:8,993
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,507
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,350
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,135
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,768
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,845