首页 技术 正文
技术 2022年11月16日
0 收藏 814 点赞 3,773 浏览 2815 个字

版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言。

总结Jackcard类似度和余弦类似度。

一、集合的Jackcard类似度

1.1Jackcard类似度

Jaccard类似指数用来度量两个集合之间的类似性,它被定义为两个集合交集的元素个数除以并集的元素个数。

数学公式描写叙述:

J(A,B)=|A∩B||A∪B|

这个看似简单的算法有非常大的用处,比方:

  1. 抄袭文档

    高明的抄袭者为了掩盖自己抄袭的事实。会选择性的抄袭文档中的一些段落,或者对词语或原始文本中的句序进行改变。jackcard类似度计算适合从字面上进行计算,假设是更高级的抄袭改变了语义jackcard类似度计算就无能为力了

  2. 镜像页面

    多个主机上建立镜像以共享载入内容,同一份内容有多个副本。这样的情况实现jackcard类似度计算十分有效。

  3. 同源新闻稿

    一个记者撰写了一份新闻稿件投稿多家媒体,稿件经过少量改动后公布,使用这些同源新闻稿能够用jackcard类似度算法来检測出来

1.2 Java实现

import java.util.HashSet;
import java.util.Map;
import java.util.Set;/**
* Created by bee on 17/4/12.
*/
public class JackcardSim { public static double calJackcardSim(Set<String> s1, Set<String> s2) { Set<String> all = new HashSet<>();
all.addAll(s1);
all.addAll(s2);
System.out.println(all);
Set<String> both = new HashSet<>();
both.addAll(s1);
both.retainAll(s2);
System.out.println(both); return (double) both.size() / all.size(); } public static void main(String[] args) { Set<String> s1 = new HashSet<String>();
s1.add("互联网");
s1.add("金融");
s1.add("房产");
s1.add("融资");
s1.add("科技"); Set<String> s2 = new HashSet<String>();
s2.add("互联网");
s2.add("开源");
s2.add("人工智能");
s2.add("软件");
s2.add("科技"); System.out.println(calJackcardSim(s1, s2)); }
}

执行结果

[科技, 房产, 软件, 融资, 人工智能, 互联网, 开源, 金融]
[科技, 互联网]
0.25

二、向量空间模型

2.1简单介绍

向量空间模型是一个把文本文件表示为标识符(比方索引)向量的代数模型。

它应用于信息过滤、信息检索、索引以及相关排序。

文档和查询都用向量来表示。

dj=(w1,j,w2,j,…,wt,j)q=(w1,q,w2,q,…,wt,q)cosθ=d2⋅q∥d2∥∥∥q∥∥=∑i=1Nwi,jwi,q∑i=1Nw2i,j‾‾‾‾‾‾√∑i=1Nw2i,q‾‾‾‾‾‾√

2.2、java实现

import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;/**
* Created by bee on 17/4/10.
*/
public class Vsm { public static double calCosSim(Map<String, Double> v1, Map<String, Double>
v2) { double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0; Set<String> v1Keys = v1.keySet();
Set<String> v2Keys = v2.keySet(); Set<String> both= new HashSet<>();
both.addAll(v1Keys);
both.retainAll(v2Keys);
System.out.println(both); for (String str1 : both) {
sclar += v1.get(str1) * v2.get(str1);
} for (String str1:v1.keySet()){
norm1+=Math.pow(v1.get(str1),2);
}
for (String str2:v2.keySet()){
norm2+=Math.pow(v2.get(str2),2);
} similarity=sclar/Math.sqrt(norm1*norm2);
System.out.println("sclar:"+sclar);
System.out.println("norm1:"+norm1);
System.out.println("norm2:"+norm2);
System.out.println("similarity:"+similarity);
return similarity;
} public static void main(String[] args) { Map<String, Double> m1 = new HashMap<>();
m1.put("Hello", 1.0);
m1.put("css", 2.0);
m1.put("Lucene", 3.0); Map<String, Double> m2 = new HashMap<>();
m2.put("Hello", 1.0);
m2.put("Word", 2.0);
m2.put("Hadoop", 3.0);
m2.put("java", 4.0);
m2.put("html", 1.0);
m2.put("css", 2.0);
calCosSim(m1, m2); }
}

执行结果:

[css, Hello]
sclar:5.0
norm1:14.0
norm2:35.0
similarity:0.22587697572631282

三、參考资料

https://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B

http://baike.baidu.com/link?url=enqtEW1bEXe0iZvil1MBk8m2upnfmN118p4cgjNpYdoJYe2l-FC5_s_yYQAq_3GUtiQW0jgwfMMBBxM0U16JiRKeFToPQ0fj058H7P8mHlZ5RV7rERN9Je7jdrYdA3gI7SRMUNTDnNyGoGgBJZN7sq

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,026
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,516
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,364
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,145
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,778
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,856