自由式学习
22人加入学习
(0人评价)
大数据___Hadoop离线阶段
价格 免费
承诺服务

zookeeper

hadoop hdfs+mapreduce

hive:数据仓库的工具,主要用于数据分析

数据仓库主要面向数据分析 OLAP

数据库主要面向事务处理 OLTP

flume:日志数据采集

exec Source tail-F

spoolingD日 source 监控某个文件夹下面的文件

avro Source 网络传输,从上级avro sink里面接收数据

TailDir Source可以按照正则匹配,收集某一类的文件

 

channel memory channel

sink:如何控制文件的大小  时间长短,文件内容大小

hdfs sink

logger sink

azkaban:任务调度的框架

sqoop数据导入导出

导入:关系型数据库到hdfs

导出:hdfs到关系型数据库

 

离线日志的分析:

第一步:数据采集,flume,爬虫,javaAPI

第二步:数据的统一存储

第三步:数据清洗,主要目的:将半结构化的数据,转换成结构化的数据,可用MapReduce来实现

第四步:数据的映射入库,hive可以将结构化的数据映射成为一张表

第五步:数据分析,数据仓库DW层,数据分析

第六步:hive临时表当中将分析的结果存入hive的临时表中

第七步:通过sqoop工具将数据导出到MySQL当中

第八步:通过web报表展示工具,展示统计结果

[展开全文]

授课教师

高级算法工程师
老师

课程特色

考试(25)
图文(1)
视频(190)

学员动态

lucyszzz 加入学习
3047徐剑 开始学习 资料下载
lucyszzz 加入学习