今天在公司做一个日志分析的任务,在做统计的时候,遇到这样一个问题,
之前已经将数据拆分好,出现这样一张中间表Table,简略写如下:
A属性 B属性 C属性 D属性
1 3 5 7
2 4 6 8
现在A属性 B属性 C属性 D属性代表Table表中的四个字段,他们的value有多个,四个属性都是不为空的,现在需要计算出A属性、B属性、C属性、D属性分别组合之后的组合在Table表中的存在数据条数。
因为把这张分析的中间表放入数据库,本来初期是想SQL语句进行查找,不过可能由于SQL知识比较弱,所以还没想到很好的SQL语句,感觉这样的查找即使写出来,也可能效率很低吧~ 有朋友知道可以告诉我哈~* _ *~
所以转变了一下思路,
1 先通过sql语句group_by 来查找每个字段有几个不同的value值,比如:
select A from Table group_by A;
这样就获取了A属性、B属性、C属性、D属性分别存在的不同value值;
2 现在就需要获取到可能的排列情况喽~由于我目前在用erlang开发项目,自然想到用erlang去实现这样一个功能函数啦~
代码附上:
calc_group(A, B, C, D) ->
%A = [1,2], B = [3,4], C = [5,6], D = [7,8],
Result = lists:foldl(fun(A1, Acc) ->
Result1 = lists:foldl(fun(B1, Acc2) ->
Result2 = lists:foldl(fun(C1, Acc3) ->
Result3 = lists:foldl(fun(D1, Acc4) ->
[{A1, B1, C1, D1} | Acc4]
end, [], D),
%lager:log(info, self(), "Result3:~p", [Result3]),
Acc3 ++ Result3
end, [], C),
%lager:log(info, self(), "Result2:~p", [Result2]),
Acc2 ++ Result2
end, [], B),
%lager:log(info, self(), "Result1:~p", [Result1]),
Acc ++ Result1
end, [], A),
Result.
第一次写这样的链表操作,一个套一个啊(惶恐哦)~~不知道在数据量较大的时候会不会影响太大,目前是还没有测试阶段,不知道线上效果如何,谁还有没有更好的方法呢?
3 最后这一步就好做了,通过获取到的排列组合,可以用sql获取count啦~
这就是今天早上做的第一个任务,做一个简单的统计分析的工作,当然还没有界面,估计后期要用php做个界面给非技术人员统计查看~fighting~