FEA大数据实践之亿级数据量处理-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

FEA大数据实践之亿级数据量处理

阅读量：6847 次

发布时间：2019-06-26

本文共 1458 字，大约阅读时间需要 4 分钟。

一、数据源介绍

某日志平台，详细的记录了数据库使用者的下列数据：

用户编号

访问时间

登录终端

访问模块

访问内容

如：用户1000001在2016-08-08 08:08:08通过192.168.3.1访问了A10001系统，查询了2016-08-01到2016-08-07日的流水记录；在2016-08-08 18:08:08通过192.167.3.1访问了A10002系统，查询了2016-07-01到2016-08-07日的流水记录；…

此日志平台的特点：

日志量大：单日产生1亿条数据

数据不均：个别用户单日数据量百万级别

二、相关经验总结

FEA进行数据分析的方式是：把DF二维表格加载进入内存，然后进行计算，优点是在计算机内存越来越大的今天，分析人员可以构建复杂的数据模型，而无需担心工具能否实现，…，

FEA面临的新困难或者瓶颈是，数据量总会压爆内存，加载速度也有限制，…，特别是在计算资源有限的情况下（内存32G,数据量2T）,笔者曾经遇到的情况是：

加载800万条数据，进行提取关键词、分类汇总操作，FEA总用时10分钟；但是加载2亿条数据的时候，按照处理800万条数据量的方法，发现目标无法达成：

数据加载不完，集群宕机

数据丢失，计算出错

三、处理思路

数据

FEA节点

如上图示例，亿级数据总共分布在15*15*4=900数据块里面，每块的数据量大小不一，9个FEA节点，单个节点一次可以加载200万条数据（集群稳定与可靠起见，FEA节点处理200万条数据是可靠的）

处理思路是这样的：如果某个5*5数据块数据量超过某一定值如200万，就一块一块加载，如果某5*5块数据加起来不超过200万条数据，就一起加载

四、FEA实现

1. 计算目标

笔者要在此日志平台上完成一个操作，在哪一天，哪个小时，哪个用户，哪个终端，哪个系统，访问了多少次

2. 阈值设定

笔者的处理思路是：在一年的时间内，如果单日的数据量小于40万条，就按日加载，如果单日的数据量大于等于40万条就分小时加载

3.模型逻辑图

原始数据需要通过适当的判断，变成逻辑分片，如2016-01-01 00:00:00-00:59:59,…, 2016-01-01 23:00:00-23:59:59, 2016-01-02, 2016-01-03

逻辑上可行，要FEA实现，加载语句是带有参数的，所以需要处理

每一次运行的结果需要单独储存在硬盘上，分片结果需要按照逻辑分片重新加载，形成最终结果

4. 实现细节

map实现

第一步就是利用es集群按日统计数据，

已经知道每一天的数据量，下一步就是按照选择大于等于40万的日期，进一步按小时细分

第二步

已经对访问量大于等于40万的日期，实现了按时细分，下一步是把访问量小于40万的日期给合并进来

此表a就是逻辑分片表，no列是添加的编号，便于分片结果的保存，也是reduce实现过程的过程的关键

cluster实现

逻辑规则比较复杂的话，FEA实现cluster运算的关键是加载语句的不同，如面语句实现的核心是，如果某一日不按时加载，$spc就是空格

集群运算

reduce实现

b表就是我们要的最终结果

五、数据验证

笔者在city=3306数据上，测试了2015-12-01,到2016-12-01的数据131,767,357条数据，运行2小时，没有丢失一条数据，成功达成目标。

转载于:https://my.oschina.net/u/3115904/blog/839484

你可能感兴趣的文章

Lync 2013部署图片赏析-证书服务安装配置

HTML5 本地缓存（web存储）

tomcat redis session共享（包含redis安全设置）

iptables中DNAT、SNAT和MASQUERADE的作用

kvm命令学习记录

小菜鸡进阶之路-First week

ORACLE 10g SYSAUX表空间快速增长之WRH$_ACTIVE_SESSION_HISTORY篇

我的友情链接

我的友情链接

linux 下安装zip

我的友情链接

python-标示符和关键字

使用递归解决斐波那契数列的性能问题

Springboot之整合Fastdfs

【Perl】perl正则表达式中的元字符、转义字符、量词及匹配方式

用带余除法可以解决一切部分分式的题目

10部电影教你6大沟通术-泡妞MM

JQuery 左右拖动插件

[转]获取js函数的名称

笔记本的拆卸

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-01 05:09:17 当前IP: 3.141.19.115 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我