一、数据源介绍
某日志平台,详细的记录了数据库使用者的下列数据:
用户编号
访问时间
登录终端
访问模块
访问内容
如:用户1000001在2016-08-08 08:08:08通过192.168.3.1访问了A10001系统,查询了2016-08-01到2016-08-07日的流水记录;在2016-08-08 18:08:08通过192.167.3.1访问了A10002系统,查询了2016-07-01到2016-08-07日的流水记录;…
此日志平台的特点:
日志量大:单日产生1亿条数据
数据不均:个别用户单日数据量百万级别
二、相关经验总结
FEA进行数据分析的方式是:把DF二维表格加载进入内存,然后进行计算,优点是在计算机内存越来越大的今天,分析人员可以构建复杂的数据模型,而无需担心工具能否实现,…,
FEA面临的新困难或者瓶颈是,数据量总会压爆内存,加载速度也有限制,…,特别是在计算资源有限的情况下(内存32G,数据量2T),笔者曾经遇到的情况是:
加载800万条数据,进行提取关键词、分类汇总操作,FEA总用时10分钟;但是加载2亿条数据的时候,按照处理800万条数据量的方法,发现目标无法达成:
数据加载不完,集群宕机
数据丢失,计算出错
三、处理思路
数据
FEA节点
如上图示例,亿级数据总共分布在15*15*4=900数据块里面,每块的数据量大小不一,9个FEA节点,单个节点一次可以加载200万条数据(集群稳定与可靠起见,FEA节点处理200万条数据是可靠的)
处理思路是这样的:如果某个5*5数据块数据量超过某一定值如200万,就一块一块加载,如果某5*5块数据加起来不超过200万条数据,就一起加载
四、FEA实现
1. 计算目标
笔者要在此日志平台上完成一个操作,在哪一天,哪个小时,哪个用户,哪个终端,哪个系统,访问了多少次
2. 阈值设定
笔者的处理思路是:在一年的时间内,如果单日的数据量小于40万条,就按日加载,如果单日的数据量大于等于40万条就分小时加载
3.模型逻辑图
原始数据需要通过适当的判断,变成逻辑分片,如2016-01-01 00:00:00-00:59:59,…, 2016-01-01 23:00:00-23:59:59, 2016-01-02, 2016-01-03
逻辑上可行,要FEA实现,加载语句是带有参数的,所以需要处理
每一次运行的结果需要单独储存在硬盘上,分片结果需要按照逻辑分片重新加载,形成最终结果
4. 实现细节
map实现
第一步就是利用es集群按日统计数据,
已经知道每一天的数据量,下一步就是按照选择大于等于40万的日期,进一步按小时细分
第二步
已经对访问量大于等于40万的日期,实现了按时细分,下一步是把访问量小于40万的日期给合并进来
此表a就是逻辑分片表,no列是添加的编号,便于分片结果的保存,也是reduce实现过程的过程的关键
cluster实现
逻辑规则比较复杂的话,FEA实现cluster运算的关键是加载语句的不同,如面语句实现的核心是,如果某一日不按时加载,$spc就是空格
集群运算
reduce实现
b表就是我们要的最终结果
五、数据验证
笔者在city=3306数据上,测试了2015-12-01,到2016-12-01的数据131,767,357条数据,运行2小时,没有丢失一条数据,成功达成目标。