大数据_数据仓库项目 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训| - Powered By EduSoho

22人加入学习

(0人评价)

大数据_数据仓库项目

价格免费

教学计划

学习有效期 398 天（随到随学）

承诺服务练试问疑

扫一扫扫二维码继续学习二维码时效为半小时
分享
已收藏
收藏

该课程属于 2213-梁同学-大数据方向-就业：是请加入后再学习

排序：点赞最多
- 最新笔记
- 点赞最多

selector:logType

1.获取body中数据

event.getBody():

2.区分类型

2720_Y_罗娅菻 · 2022-03-14 · 05_自定义类型区分拦截器.avi 0

DWD：判空过滤，维度退化（降维）

2720_Y_罗娅菻 · 2022-03-18 · 09_DWD层创建及数据导入.avi 0

每周活跃设备分析：

累计每日活跃用户数并去重

date_add(next_day('2019-02-10','MO'),-7)

2720_Y_罗娅菻 · 2022-03-17 · 03_每周活跃设备用户数.avi 0

强制删表：cascade

2720_Y_罗娅菻 · 2022-03-17 · 01_第三天内容回顾.avi 0

函数运用：

collect_set

日期函数：
date_format():

date_add():

next_day():

last_day():当月最后一天

2720_Y_罗娅菻 · 2022-03-17 · 13_系统函数.avi 0

一、自定义UDTF函数使用

lateral view()

二、自定义UDTF函数，需要继承genericUDTF:重写initiallize（）；process（）：close（）

2720_Y_罗娅菻 · 2022-03-15 · 08_自定义udtf函数分析.avi 0

从JSON对象中取值

2720_Y_罗娅菻 · 2022-03-15 · 05_自定义udf函数解析公共字段.avi 0

脚本：
导入hdfs上的数据到hive表

脚本中需指定数据库mingchen

2720_Y_罗娅菻 · 2022-03-15 · 04_ods层数据导入.avi 0

hive优化：
使用Tez引擎，jians

2720_Y_罗娅菻 · 2022-03-15 · 02_每日回顾2.avi 0

Tez运行引擎，性能优于Mr，数据传输不落入磁盘

2720_Y_罗娅菻 · 2022-03-15 · 16_tez引擎安装.avi 0

awk:一种处理文本文件的语言

$ awk '{print $1,$4}' log.txt

2720_Y_罗娅菻 · 2022-03-14 · 06_Flume启动停止脚本.avi 0

通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本、提高产品质量等。

报表系统、用户画像、推荐系统、机器学习、风控系统

2720_Y_罗娅菻 · 2022-03-13 · 03_数据仓库概念.avi 0

ETL拦截器

定义intercept

1.获取数据

byte[] body = event.getBody();

String json = new String(body);

2.校验数据是否合法

定义logUtils类封装校验逻辑

NumberUtils.isDigits()判断是否纯数字

2720_Y_罗娅菻 · 2022-03-14 · 04_自定义ETL拦截器.avi 0

flume：

TAILDIR：支持断点续传

2720_Y_罗娅菻 · 2022-03-14 · 03_日志采集Flume配置分析.avi 0

数据仓库，是为企业所有决策制定过程，提供所有系统数据支持的战略集合。

通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本、提高产品质量等。

对数据的处理爆发阔：清洗、转义、分类、重组合并、拆分、统计等

hadoop集群的常见端口号:50070、50090、9000、8088、19888

核心配置文件：core.site

两个必备条件：Java、ssh

2720_Y_罗娅菻 · 2022-03-14 · 01_第一日回顾.avi 0

断点续传：记录

2720_Y_罗娅菻 · 2022-03-14 · 15_Flume采集分析.avi 0

json格式化解析工具

2720_Y_罗娅菻 · 2022-03-14 · 13_zk安装及日志生成集群启动脚本.avi 0

数据生成：

2720_Y_罗娅菻 · 2022-03-14 · 10_数据生成（上）.avi 0

对字段必须熟悉

2720_Y_罗娅菻 · 2022-03-13 · 08_埋点数据基本格式.avi 0

埋点用户行为数据：

用户在使用产品过程中，与客户端产品交互过程中产生的数据，比如页面浏览、点击、停留、评论、点赞、收藏等

业务交互数据：

业务流程中产生的登录、订单、用户、商品、支付等相关的数据，通常存储在DB找那个，包括MySQL、orcale等。

Nginx：主要负责负载均衡

flume：

三个组件，两个事务

拦截器

监控器ganglia

flume默认内存1GB，在企业中会调整至4GB左右

2720_Y_罗娅菻 · 2022-03-13 · 06_系统数据流程设计.avi 0

大数据___Hadoop离线阶段

大数据___Hadoop离线阶段

22 0

Hadoop视频

83 0

授课教师

Lonely.

大数据开发工程师

森陌夏栀

高级算法工程师

课程特色

考试(7)

图文(1)

视频(89)

最新学员

学员动态

069e2760c7efa2cf 完成了 04_azkaban调度全流程...

069e2760c7efa2cf 开始学习 04_azkaban调度全流程...

069e2760c7efa2cf 开始学习 01_复购率计算分析.avi

069e2760c7efa2cf 完成了 03_export导出数据.a...

069e2760c7efa2cf 开始学习 03_export导出数据.a...