大数据___Hadoop离线阶段 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

zookeeper

hadoop hdfs+mapreduce

hive：数据仓库的工具，主要用于数据分析

数据仓库主要面向数据分析 OLAP

数据库主要面向事务处理 OLTP

flume：日志数据采集

exec Source tail-F

spoolingD日 source 监控某个文件夹下面的文件

avro Source 网络传输，从上级avro sink里面接收数据

TailDir Source可以按照正则匹配，收集某一类的文件

channel memory channel

sink：如何控制文件的大小时间长短，文件内容大小

hdfs sink

logger sink

azkaban：任务调度的框架

sqoop数据导入导出

导入：关系型数据库到hdfs

导出：hdfs到关系型数据库

离线日志的分析：

第一步：数据采集，flume，爬虫，javaAPI

第二步：数据的统一存储

第三步：数据清洗，主要目的：将半结构化的数据，转换成结构化的数据，可用MapReduce来实现

第四步：数据的映射入库，hive可以将结构化的数据映射成为一张表

第五步：数据分析，数据仓库DW层，数据分析

第六步：hive临时表当中将分析的结果存入hive的临时表中

第七步：通过sqoop工具将数据导出到MySQL当中

第八步：通过web报表展示工具，展示统计结果