线性回归有是三个值很重要:1. 斜率2. 截距:x和y轴的交点值;3. 显著性:数据偏离线性的程度,用以判断数据可以用线性表示的程度;拟合度 apache.commons.math3里面有一个simpleRegression专门用于做线性分析;通过add函数来进行添加x值和y值; 基因聚合感悟:Map阶段实现的就是数据的查询,筛选以及数据组织(组织成key,value形式)算法:算法一:单值谈不上,Map阶段根据genId+refence对数据进行过滤(value > 1.04),并按照key(genId+refence)聚合,然后reduce统计数量,其实和wordcount一致;算法二:均值Map阶段获取数据,并按照key(genId+refence)进行聚合(key,List<value>;在reduce阶段对数据List<value>取平均值,取>1.04的数据;