电信日志分析:
描述:
- 以什么为基础计算:电信用户上网所产生的数据
- 数据主要来源:访问日志和安全日志
- 目的:异常IP的检测、关键词的过滤、违规违法用户的处理
- 方法:通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能实现
- 数据量:1T-20T左右
- 集群数量:10台-100台
项目架构分析:
- 数据采集层(千兆网卡以上):
- 用户访问日志数据:数据格式;
数据采集的方式:ftp
数据上传时间
小文件合并:shell(JNotify) - 用户安全日志数据:
触发上传要求
数据采集方式:socket--C++完成数据采集,缓存到内存磁盘
数据格式:加密码加密形式
- 用户访问日志数据:数据格式;
- 数据储存层:HDFS分布式文件系统
- 数据分析层:
- MapReduce:数据清洗
- HIVE
- hbase:固定条件查询
- impala:实时性较高的要求
- SPARK:解决单一数据源多指标在内存中的计算
- OOZIE:任务调度
- mysol:HIVE和oozie元数据存放
- 机器学习层:在大数据的存储和计算基础上,通过构建机器学习构建机器学习模型,对事实作出预判
项目优化:HDFS+SPARK一站式分析平台