大数据_数据仓库项目 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

22人加入学习

(0人评价)

大数据_数据仓库项目

价格免费

教学计划

学习有效期 2 天（随到随学）

承诺服务练试问疑

扫一扫扫二维码继续学习二维码时效为半小时
分享
已收藏
收藏

该课程属于 1246-谭同学-大数据方向-大数据分析方向：就业：是请加入后再学习

排序：最新笔记
- 最新笔记
- 点赞最多

DWD：判空过滤，维度退化（降维）

[展开全文]

2720_Y_罗娅菻 · 2022-03-18 · 09_DWD层创建及数据导入.avi 0

三范式区分：

1.第一范式核心原则：属性不可切割

2.第二范式核心原则：不能存在“”部分函数依赖“”

3.第三范式核心原则：不能存在传递函数依赖

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 03_三范式理论.avi 0

范式理论（重点）

函数依赖：

完全函数依赖

部分函数依赖

传递函数依赖

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 02_函数依赖.avi 0

insert into table ads_user_retention_day_rate

select

from

(

)

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 12_留存用户比率.avi 0

留存用户：某段时间内的新增用户（活跃用户），经过一段时间后，又继续使用应用的被认作是流程用户

流程率：留存用户占当时新增用户（活跃用户）的比例即是留存率

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 10_用户留存分析.avi 0

脚本：

定义数据库名称

hive地址

date -d "-1 day" + %F

%F格式：2017-10-28

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 05_DWS层加载数据脚本.avi 0

每月活跃设备分析

date_format(dt,'yyyy-MM')=date_format(dt,'yyyy-MM')

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 04_每月活跃设备用户数.avi 0

每周活跃设备分析：

累计每日活跃用户数并去重

date_add(next_day('2019-02-10','MO'),-7)

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 03_每周活跃设备用户数.avi 0

强制删表：cascade

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 01_第三天内容回顾.avi 0

函数运用：

collect_set

日期函数：
date_format():

date_add():

next_day():

last_day():当月最后一天

[展开全文]

2720_Y_罗娅菻 · 2022-03-17 · 13_系统函数.avi 0

一、自定义UDTF函数使用

lateral view()

二、自定义UDTF函数，需要继承genericUDTF:重写initiallize（）；process（）：close（）

[展开全文]

2720_Y_罗娅菻 · 2022-03-15 · 08_自定义udtf函数分析.avi 0

从JSON对象中取值

[展开全文]

2720_Y_罗娅菻 · 2022-03-15 · 05_自定义udf函数解析公共字段.avi 0

脚本：
导入hdfs上的数据到hive表

脚本中需指定数据库mingchen

[展开全文]

2720_Y_罗娅菻 · 2022-03-15 · 04_ods层数据导入.avi 0

hive优化：
使用Tez引擎，jians

[展开全文]

2720_Y_罗娅菻 · 2022-03-15 · 02_每日回顾2.avi 0

Tez运行引擎，性能优于Mr，数据传输不落入磁盘

[展开全文]

2720_Y_罗娅菻 · 2022-03-15 · 16_tez引擎安装.avi 0

awk:一种处理文本文件的语言

$ awk '{print $1,$4}' log.txt

[展开全文]

2720_Y_罗娅菻 · 2022-03-14 · 06_Flume启动停止脚本.avi 0

selector:logType

1.获取body中数据

event.getBody():

2.区分类型

[展开全文]

2720_Y_罗娅菻 · 2022-03-14 · 05_自定义类型区分拦截器.avi 0

ETL拦截器

定义intercept

1.获取数据

byte[] body = event.getBody();

String json = new String(body);

2.校验数据是否合法

定义logUtils类封装校验逻辑

NumberUtils.isDigits()判断是否纯数字

[展开全文]

2720_Y_罗娅菻 · 2022-03-14 · 04_自定义ETL拦截器.avi 0

flume：

TAILDIR：支持断点续传

[展开全文]

2720_Y_罗娅菻 · 2022-03-14 · 03_日志采集Flume配置分析.avi 0

数据仓库，是为企业所有决策制定过程，提供所有系统数据支持的战略集合。

通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本、提高产品质量等。

对数据的处理爆发阔：清洗、转义、分类、重组合并、拆分、统计等

hadoop集群的常见端口号:50070、50090、9000、8088、19888

核心配置文件：core.site

两个必备条件：Java、ssh

[展开全文]

2720_Y_罗娅菻 · 2022-03-14 · 01_第一日回顾.avi 0

大数据___Hadoop离线阶段

22 0

Hadoop视频

83 0

授课教师

Lonely.

大数据开发工程师

森陌夏栀

高级算法工程师

Summer

大数据资深开发工程师

课程特色

考试(7)

图文(1)

视频(89)

学员动态

069e2760c7efa2cf 完成了 04_azkaban调度全流程...

069e2760c7efa2cf 开始学习 04_azkaban调度全流程...

069e2760c7efa2cf 开始学习 01_复购率计算分析.avi

069e2760c7efa2cf 完成了 03_export导出数据.a...

069e2760c7efa2cf 开始学习 03_export导出数据.a...

授课教师

课程特色

最新学员

学员动态