首页技术正文

高介分类：核方法与支持向量机（SVM）

程序员文博技术 2022年11月14日

0 收藏 400 点赞 2,272 浏览 3398 个字

数据模型：并不是简单地二维数据，多个维度或者对象的数据聚合起来 { persion1’s attr1:value1,…,persion1’s attrN:valueN,persion2’s attr1:value1,…,persion2’s attrN:value1,whetherSuccess:value } 同一个问题：不同的分类方法的类比决策树：存在多个数值型输入，且这些数值所呈现的关系并不简单，决策树往往不是最有效的方法简单的线性分类：它只能找出一条分界线来，如果找不到，或者实际存在多条直线时，分类器会得到错误的答案算法思想：核方法和SVM都是线性分类（类发现群组的聚类）的方法，不同的是在更高维度上计算两个向量间的点积，而简单的线性分类只是在二维空间里用点积来计算距离核方法：用新的函数来取代原来的点积函数，将数据映射到更高维度的坐标空间去，并返回高维度空间内的点积，实际中会采取少数几种变换方法，常用径向基函数（radial-basis function): 接受两个向量作为输入，返回一个标量值，和点积不同的是，其是非线性的　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　通过调整gamma来得到最佳的线性分离先用向量A和一个分类中的每个向量求距离，然后再求平均距离 SVM：使用LibSVM 数据的线性化是重点： 1.是否问题：yes->1,no->0 2.兴趣类的：

单人的：可以用是否的方法处理成对的：则两人出现计数累加1次某些不同的兴趣爱好也是可能配对成功的，如滑雪与滑板；如果为每一个兴趣都建立一个变量，则分类器更加复杂；一种好的处理方法是将兴趣爱好按层级排列：第一级-第二级-第三级：滑雪和滑板都是雪地运动，雪地运行又是体育运动，如果两个人都对第三级的项目感兴趣，则分值为1，否则如果两个人都是对第二级的项目感兴趣，则分支为1，第一级的感兴趣，分值为0.5；即层级越高，赢取的分值越低

3.数据的缩放：对不同度量单位的数值进行衡量时，需要将数据缩放为统一尺度[0,1]，做归一化处理，即m(x)=(x-min(X))/(max(X)-min(X))；或者构建成本函数，获得每个属性的权重

1.数据的处理：

婚介数据集：年龄、是否吸烟、是否要孩子、兴趣列表、家庭住址每一行数据包含了一对男女的信息以及是否匹配成功的标志（0和1）　　

数据集中的数据是相互作用和非线性的，所以先用年龄和是否配对成功来分析各种分类算法的使用场景 2.决策树 i.适用场景：根据数值边界来对数据进行划分的 ii.处理过程：使用年龄来最决策树决策树更加适合自动分类决策树更加适合自动分类

iii.不使用场景：存在多个数值型输入，且这些数值所呈现的关系并不简单，决策树往往不是最有效的方法 3.基本的线性分类： i.思想：寻找每个分类中所有数据的平均值，并构造一个代表该分类中心位置的点，根据和每个中心位置的距离远近来进行分类 ii.计算方法： iii.不使用场景：存在多个数值型输入，且这些数值所呈现的关系并不简单，决策树往往不是最有效的方法 3.基本的线性分类： i.思想：寻找每个分类中所有数据的平均值，并构造一个代表该分类中心位置的点，根据和每个中心位置的距离远近来进行分类 ii.计算方法： iii.分类结果图： iii.分类结果图： iv.距离的计算方法： a.欧几里得距离 b.向量和点积先计算两个分类的中心点然后根据两个向量的点积的正负(夹角的大小)来判断属于哪个分类： class=”sign”((X-(M0+M1)/2)*(M0-M1))=sign(XM0-XM1+(M0*M0-M1*M1)/2) v.优劣性：它只能找出一条分界线来，如果找不到，或者实际存在多条直线时，分类器会得到错误的答案 4.数据的线性化：数据有数值型，也有分类型，决策树不需对数据进行预处理，但是其他分类器只能处理数值型数据，所有需要进行数据的数值化： i.是否问题： yes –> 1 no –> 0 ii.兴趣列表：单人的：可以用是否的方法处理成对的：则两人出现计数累加1次某些不同的兴趣爱好也是可能配对成功的，如滑雪与滑板；如果为每一个兴趣都建立一个变量，则分类器更加复杂；一种好的处理方法是将兴趣爱好按层级排列：第一级-第二级-第三级：滑雪和滑板都是雪地运动，雪地运行又是体育运动，如果两个人都对第三级的项目感兴趣，则分值为1，否则如果两个人都是对第二级的项目感兴趣，则分支为1，第一级的感兴趣，分值为0.5；即层级越高，赢取的分值越低 iii.地理位置的距离：利用Yahoo Maps来根据地址为邮编得到经度和纬度，然后将两地的纬度差*69.1，经度差*53，求欧几里得距离 iv.对数据进行缩放：(也可用成本函数进行计算) 对不同度量单位的数值进行衡量时，需要将数据缩放为统一尺度[0,1]，做归一化处理，即m(x)=(x-min(X))/(max(X)-min(X))　　 iv.距离的计算方法： a.欧几里得距离 b.向量和点积先计算两个分类的中心点然后根据两个向量的点积的正负(夹角的大小)来判断属于哪个分类： class=”sign”((X-(M0+M1)/2)*(M0-M1))=sign(XM0-XM1+(M0*M0-M1*M1)/2) v.优劣性：它只能找出一条分界线来，如果找不到，或者实际存在多条直线时，分类器会得到错误的答案 4.数据的线性化：数据有数值型，也有分类型，决策树不需对数据进行预处理，但是其他分类器只能处理数值型数据，所有需要进行数据的数值化： i.是否问题： yes –> 1 no –> 0 ii.兴趣列表：单人的：可以用是否的方法处理成对的：则两人出现计数累加1次某些不同的兴趣爱好也是可能配对成功的，如滑雪与滑板；如果为每一个兴趣都建立一个变量，则分类器更加复杂；一种好的处理方法是将兴趣爱好按层级排列：第一级-第二级-第三级：滑雪和滑板都是雪地运动，雪地运行又是体育运动，如果两个人都对第三级的项目感兴趣，则分值为1，否则如果两个人都是对第二级的项目感兴趣，则分支为1，第一级的感兴趣，分值为0.5；即层级越高，赢取的分值越低 iii.地理位置的距离：利用Yahoo Maps来根据地址为邮编得到经度和纬度，然后将两地的纬度差*69.1，经度差*53，求欧几里得距离 iv.对数据进行缩放：(也可用成本函数进行计算) 对不同度量单位的数值进行衡量时，需要将数据缩放为统一尺度[0,1]，做归一化处理，即m(x)=(x-min(X))/(max(X)-min(X))　　 5.核方法：（超越线性分类的方法，来解决寻找一条分界线额局限性） i.通过对数据进行变换实现线性分类是有可能的　　　　5.核方法：（超越线性分类的方法，来解决寻找一条分界线额局限性） i.通过对数据进行变换实现线性分类是有可能的　　　　可以对x、y求平方，进行变化后，可以寻找一条分界线，或者数据的多维变换：a=x^2,b=x*y,c=y^2，在多维空间里寻找两个分类的分界线，但是将数据投影到很多维度上又不切实际 ii.核技法：用新的函数来取代原来的点积函数，将数据映射到更高维度的坐标空间去，并返回高维度空间内的点积，实际中会采取少数几种变换方法，常用径向基函数（radial-basis function): 接受两个向量作为输入，返回一个标量值，和点积不同的是，其是非线性的，可以对x、y求平方，进行变化后，可以寻找一条分界线，或者数据的多维变换：a=x^2,b=x*y,c=y^2，在多维空间里寻找两个分类的分界线，但是将数据投影到很多维度上又不切实际 ii.核技法：用新的函数来取代原来的点积函数，将数据映射到更高维度的坐标空间去，并返回高维度空间内的点积，实际中会采取少数几种变换方法，常用径向基函数（radial-basis function): 接受两个向量作为输入，返回一个标量值，和点积不同的是，其是非线性的，通过调整gamma来得到最佳的线性分离 iii.坐标点与均值点间的距离：先对一组向量求均值点，然后向量A与均值点的点积，与先用向量A和向量组中的每一个向量求点积，然后在求均值的效果一样，所有直接计算某个坐标点与分类中其余每个坐标点的点积或者径向基函数，然后再求均值　　　　　　 offset参数是偏移量，在转换后的空间中也会变化，因其计算过程费时，所以预先为某个数据集计算一次偏移量，然后调用的时候传入 6.支持向量机 i.数据集 offset参数是偏移量，在转换后的空间中也会变化，因其计算过程费时，所以预先为某个数据集计算一次偏移量，然后调用的时候传入 6.支持向量机 i.数据集大多数的数据都是远离分界线的，所以判断坐标点的分类与是否位于直线的某一侧并没有太大的实际意义 ii.支持向量机：广为认知的一组方法的统称，用来解决上述问题的分类器：尝试找出一条尽可能远离所有分类的线，这条线被称为最大间隔超平面（Maximun-Margin hyperplan） iii.例子：此处选择分界线的依据是：寻找两条分别经过各分类相应坐标点的平行线，使其与分界线的距离尽可能的远；而对于新数据点，通过观察位于分界线的哪一侧类判断其所属的分类；同时，只有位于间隔区边缘的坐标点才是确定分界线位置所必须的，因此可以去掉冗余的数据，而分界线处于相同的位置，将这条分解称为支持向量；而寻找支持向量，并利用其来寻找分界线的算法及时支持向量机　　　　大多数的数据都是远离分界线的，所以判断坐标点的分类与是否位于直线的某一侧并没有太大的实际意义 ii.支持向量机：广为认知的一组方法的统称，用来解决上述问题的分类器：尝试找出一条尽可能远离所有分类的线，这条线被称为最大间隔超平面（Maximun-Margin hyperplan） iii.例子：此处选择分界线的依据是：寻找两条分别经过各分类相应坐标点的平行线，使其与分界线的距离尽可能的远；而对于新数据点，通过观察位于分界线的哪一侧类判断其所属的分类；同时，只有位于间隔区边缘的坐标点才是确定分界线位置所必须的，因此可以去掉冗余的数据，而分界线处于相同的位置，将这条分解称为支持向量；而寻找支持向量，并利用其来寻找分界线的算法及时支持向量机　　　　 iv.应用：面部表情分类军事数据侦测入侵者预测蛋白质结构笔迹识别确定地震期间的潜在危害 v.LIBSVM支持向量机的使用 a.从包含两个列表的元组中读取数据，一个列表含有分类数据，另一个函数输入数据 b.示例：　　　　 iv.应用：面部表情分类军事数据侦测入侵者预测蛋白质结构笔迹识别确定地震期间的潜在危害 v.LIBSVM支持向量机的使用 a.从包含两个列表的元组中读取数据，一个列表含有分类数据，另一个函数输入数据 b.示例：　　　　

　　　

c.对于婚介数据集：　　　　使用交叉验证来训练模型，接收一个参数n，将数据拆为n个子集，每次将一个子集作为测试集，利用其它子集对模型展开训练；将结果与最初的列表进行对比，answer与guesses差异数为116，即得到了500行数据中的384匹配项　　　　

点赞 400

分界线向量数据方法线性

程序员文博

贡献者

上一篇： fragment的入门DEMO

下一篇： Js 实现 C# Format方法

相关推荐

python开发_常用的python模块及安装方法

python开发_常用的python模块及安装方法

adodb：我们领导推荐的数据库连接组件bsddb3：BerkeleyDB的连接组件Cheetah-1.0：我比较喜欢这个版本的cheeta…

程序员润宾技术

日期：2022-11-24 点赞：878 阅读：9,085

Educational Codeforces Round 11 C. Hard Process 二分

Educational Codeforces Round 11 C. Hard Process 二分

C. Hard Process题目连接：http://www.codeforces.com/contest/660/problem/CDes…

程序员春广技术

日期：2022-11-24 点赞：807 阅读：5,560

下载Ubuntn 17.04 内核源代码

下载Ubuntn 17.04 内核源代码

zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…

程序员峰军技术

日期：2022-11-24 点赞：569 阅读：6,409

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…

程序员天赐技术

日期：2022-11-24 点赞：733 阅读：6,182

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式，并且由于涉及到要把拍到的照片显…

程序员爱鹏技术

日期：2022-11-24 点赞：512 阅读：7,819

Struts的使用

一、Struts2的获取　　Struts的官方网站为：http://struts.apache.org/　　下载完Struts2的jar包,…

程序员红卫技术

日期：2022-11-24 点赞：671 阅读：4,902