2213-梁同学-大数据方向-就业:是 已关闭

2213-梁同学-大数据方向-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

重点掌握:

hadoop的基本架构:

hadoop1.x:

hdfs:

namenode:主节点,存储元数据信息,处理用户的请求

secondaryNamenode:主要是辅助namenode管理元数据信息的

datanode:从节点,存储数据,出磁盘

mapReduce:

jobTracker:主节点,接收用户的请求,分配任务

taskTracker:从节点,主要用于接受jobTracker分配的任务,并执行任务

 

hadoop2.x中的架构:

hdfs:分布式文件存储系统

namenode:主节点,主要用于存储元数据信息,处理用户的请求

secondaryNamenode:主要是辅助namenode管理元数据信息

datanode:从节点,主要用于存储数据,出磁盘

如果namenode是高可用,那么就没有secondaryNamenode了,多了journalnode,并且journalnode最好是奇数个

journalNode:同步元数据信息,保证两个那么namenode、里面的元数据一模一样,不然会出现脑裂

zkfc:zkFailoverController 守护进程,与我们的namenode启动在同一台机器,监听namenode的健康状况

 

yarn资源调度系统:

resuorceManager:主节点,主要用于接收用户请求,分配资源

nodeMannager:从节点,执行任务

 

apache的hadoop三种运行环境的搭建

standAlone环境:单机版的hadoop运行环境

伪分布式环境:主节点都在一台机器上面,从节点分开到其他机器上面

完全分布式环境:主节点全部都分散到不同的机器

 

cdh

[展开全文]

hdfs的特性:

master/slaves架构:主从架构

namenode:主节点,主要用于存储元数据,处理用户的请求

datanode、:从节点,主要用于存储数据,出磁盘的角色

分块存储:把一个打的文件,化成一个个晓得block块,在hadoop2.0中一个block块默认是128M大小

统一的命名空间:对外提供统一的文件访问的地址hdfs://hadoop102:8020

[展开全文]

真是的服务器性能,写入速度大概在20-30M每秒

[展开全文]

hdfs的安全模式“在集群刚刚启动时,集群是处于安全模式的,对外不提供任务服务,专门进行

[展开全文]

 所有的hdfs用户都存放在user中

[展开全文]

hdfs的权限管理:

hdfs dfa -chmod -R 777 /xxx

hdfs dfs -chmod -R yalin:yalin /xxx

[展开全文]

hdfs:分布式文件存储系统

yarn:资源调度系统,可以运行我们的MapReduce程序

/opt/module/hadoop-2.6.0-cdh5.14.0/share存放的各种jar包

 

本地文件系统:

就是hadoop02的本地磁盘

hdfs分布式文件系统:每个机器出一些磁盘,凑成一个大的硬盘,磁盘的容量来自各个服务器的硬盘容量之和

 

新命令 :hdfs dfs

例:计算圆周率

hadoop jar  /opt/module/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.14.0.jar pi 3  5

[展开全文]

完全分布模式环境的安装

hdfs模块:

journalNode:在两个namenode之间同步元数据信息

zkfc:守护进程,监看namenode运行的健康信息报告

[展开全文]

CDH官网:

www.cloudera.com

安装包 

[展开全文]

Hadoop的六个配置文件的作用:

core-site.xml:核心配置文件,主要是定义了集群是分布式还是本机运行

hdfs-site.xml:分布式文件系统的核心配置,决定了我们数据存放在哪个路径,数据的副本,数据的block块大小等等

Linux磁盘空间查看 df -lh

dfs.blocksize:文件block块的大小

 

hadoop-env.sh 配置了jdk的home路径

mapred-site.xml,定义了我们关于MapReduce

运行的一些参数

yarn-site.xml:定义我们的yarn集群

slaves定义了我们的从节点是哪些机器 datanode ,nodemanager运行在哪些机器上

Hadoop的格式化:只在初始化集群的时候执行一次 

 

http://192.168.211.102:50070/

50070:默认查看hdfs集群

http://192.168.211.102:8088/

8088:默认看yarn集群

http://192.168.211.102:19888/

19888默认查看历史

[展开全文]

文件系统:存放的数据都能够找到

元数据:  描述数据的数据

MapReduce分布式文件计算系统:

jobtracker:主节点,接收用户请求,分配任务给taskTracker去执行

taskTracker:从节点,主要用于接受jobTracker分配的任务

 

namenode高可用:

namenode active状态:处于活跃的主节点,处理用户请求,维护元数据信息

namenode stand状态:处于备份的节点,活跃的主节点死了之后,备份的节点,马上切换为活跃的主节点对外提供服务

注意:如果namenode高可用,那么一定要保证namenode的元数据信息同步一致,如果不一致,就会出现脑裂的问题

所以为了解决元数据共享的问题,引入journal node的机制,专门用于同步元数据信息

zkfc:namenode的守护进程,主要用于监听namenode什么时候死掉,死掉之后,马上通知另外一个namenode切换为主节点

 

 

 

 

[展开全文]

apache版本的Hadoop三种运行环境的介绍:

1.standAlone:单机版的Hadoop运行环境

2.伪分布式:主节点都在一台机器上面,从节点分开到其他机器上面

namenode resourcemanager

3.完全分布式环境:主节点全部都分散到不同的机器 namenode active占用一台机器,resourcemanagerstandby占用一台机器

 

Hadoop的本地库:lib/native 本地库很重要,里面集成了一些c程序,包括一些压缩的支持

bin/hadoop native 检测Hadoop的本地库,是否支持

默认的Apache的版本的压缩方式snappy不支持,需要重新编译 

 

下载网址:https://archive.apache.org/dist/hadoop/common/

 

/opt/module/hadoop-2.7.5/lib/native hadoop的本地库

 

 

 

[展开全文]

大数据生态圈:框架较多

线上环境一般都使用CDH版本的软件

[展开全文]

每天联系SQL

途径:SQL必练50题

[展开全文]

创建临时节点

客户端创建的临时节点,只要客户端方与服务端断开连接,就会消失(quit退出)

 

熟练创建4种节点模型

zookeeper没有相对路径

bin/zkCli.sh

[展开全文]

1、三台机器的创建联网

2、Linux的基础增强

查找命令grep   

用户与用户组

权限管理:

chown -R  

chmod -R 777

系统服务:

    查看系统服务的命令(防火墙)

网络管理:

主机名的更改

主机名与ip地址的映射

ip地址mac地址的更改

crontab -e 定时任务

Linux的shell编程 重要!!!

 

大数据集群的环境准备

 

zookeeper:

集群环境搭建

shell操作

java的JavaAPI操作

 

 

[展开全文]

jar包下载失败:

第一部:刷新工程,重新下载

第二部:删除maven仓库里面的lastupdated的文件

第三部:换Maven的版本

[展开全文]

临时节点与zk的watch机制一起搭配使用,可以监听临时节点什么时候消失

[展开全文]

临时节点没有子节点

[展开全文]