zookeeper
hadoop hdfs+mapreduce
hive:数据仓库的工具,主要用于数据分析
数据仓库主要面向数据分析 OLAP
数据库主要面向事务处理 OLTP
flume:日志数据采集
exec Source tail-F
spoolingD日 source 监控某个文件夹下面的文件
avro Source 网络传输,从上级avro sink里面接收数据
TailDir Source可以按照正则匹配,收集某一类的文件
channel memory channel
sink:如何控制文件的大小 时间长短,文件内容大小
hdfs sink
logger sink
azkaban:任务调度的框架
sqoop数据导入导出
导入:关系型数据库到hdfs
导出:hdfs到关系型数据库
离线日志的分析:
第一步:数据采集,flume,爬虫,javaAPI
第二步:数据的统一存储
第三步:数据清洗,主要目的:将半结构化的数据,转换成结构化的数据,可用MapReduce来实现
第四步:数据的映射入库,hive可以将结构化的数据映射成为一张表
第五步:数据分析,数据仓库DW层,数据分析
第六步:hive临时表当中将分析的结果存入hive的临时表中
第七步:通过sqoop工具将数据导出到MySQL当中
第八步:通过web报表展示工具,展示统计结果