自由式学习
111人加入学习
(0人评价)
机器学习---导论
价格 免费
承诺服务
该课程属于 1479-叶同学-算法方向-计算机视觉-就业:否 请加入后再学习

 

数据分层:

数据采集层、数据存储层、数据分析层、数据展示

数据采集层

用户访问日志数据,数据格式:地区吗|用户ip|目的ip|流量……;数据采集方式:采用fatp方式长传服务器;上传时间:每小时上传上一小时的数据;小文件合并:通过shell完成文件合并;监控文件:JNotify

用户的安全日志数据:

当用户触犯电信部门制定的只读、违反国家法律法规

数据采集方式用:Socket---C++完成数据采集,先缓存到内存再到磁盘;

数据格式:加密码:加密形式 abc:79217979web

网卡配置:千兆或万超网卡配置

 

数据存储层:HDFS分布式文件系统

 

数据分析层:用Mapreduce、Impala\Spark

1、完成数据清洗(缺失字段处理、异常值处理等

2、使用MR和Redis进行交互完成地区码201和地区名字的转换

3、使用MR处理好的数据进一步加载到Hive中做处理

4、试用MR将数据入库到HBASE完成固定条件查询

5、给到Spark中实时查询

 

机器学习层:

机器学习位于大数据上层,完成的是在大数据的数据存储和数据计算之上,通过数据结合机器学习算法建构机器学习模型,利用模型对现实时间做出预测

 

数据展示:Oracle+SSM

 

[展开全文]

电信日志分析:

描述:

  1. 以什么为基础计算:电信用户上网所产生的数据
  2. 数据主要来源:访问日志和安全日志
  3. 目的:异常IP的检测、关键词的过滤、违规违法用户的处理
  4. 方法:通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能实现
  5. 数据量:1T-20T左右
  6. 集群数量:10台-100台

项目架构分析:

  1. 数据采集层(千兆网卡以上):
    • 用户访问日志数据:数据格式;
      数据采集的方式:ftp
      数据上传时间
      小文件合并:shell(JNotify)
    • 用户安全日志数据:
      触发上传要求
      数据采集方式:socket--C++完成数据采集,缓存到内存磁盘
      数据格式:加密码加密形式
  2. 数据储存层:HDFS分布式文件系统
  3. 数据分析层:
    1. MapReduce:数据清洗
    2. HIVE
    3. hbase:固定条件查询
    4. impala:实时性较高的要求
    5. SPARK:解决单一数据源多指标在内存中的计算
    6. OOZIE:任务调度
    7. mysol:HIVE和oozie元数据存放
  4. 机器学习层:在大数据的存储和计算基础上,通过构建机器学习构建机器学习模型,对事实作出预判

项目优化:HDFS+SPARK一站式分析平台

[展开全文]

授课教师

高级算法工程师
老师

课程特色

图文(2)
视频(24)
考试(2)
下载资料(1)