2213-梁同学-大数据方向-就业:是 已关闭

2213-梁同学-大数据方向-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

DWD:判空过滤,维度退化(降维)

[展开全文]

三范式区分:

1.第一范式核心原则:属性不可切割

2.第二范式核心原则:不能存在“”部分函数依赖“”

3.第三范式核心原则:不能存在传递函数依赖

[展开全文]

范式理论(重点)

函数依赖:

完全函数依赖

部分函数依赖

传递函数依赖

[展开全文]

insert into table ads_user_retention_day_rate

select

from

(

 

)

[展开全文]

留存用户:某段时间内的新增用户(活跃用户),经过一段时间后,又继续使用应用的被认作是流程用户

流程率:留存用户占当时新增用户(活跃用户)的比例即是留存率

[展开全文]

脚本:

定义数据库名称

hive地址

date -d  "-1 day" + %F

%F格式:2017-10-28

[展开全文]

每月活跃设备分析

date_format(dt,'yyyy-MM')=date_format(dt,'yyyy-MM')

[展开全文]

每周活跃设备分析:

累计每日活跃用户数并去重

date_add(next_day('2019-02-10','MO'),-7)

 

 

[展开全文]

函数运用:

collect_set

日期函数:
date_format():

date_add():

next_day():

last_day():当月最后一天

[展开全文]

一、自定义UDTF函数使用

lateral view()

二、自定义UDTF函数,需要继承genericUDTF:重写initiallize();process():close()

[展开全文]

脚本:
导入hdfs上的数据到hive表

脚本中需指定数据库mingchen

[展开全文]

hive优化:
使用Tez引擎,jians

[展开全文]

Tez运行引擎,性能优于Mr,数据传输不落入磁盘

[展开全文]

awk:一种处理文本文件的语言

$ awk '{print $1,$4}' log.txt
[展开全文]

selector:logType

1.获取body中数据

event.getBody():

2.区分类型

[展开全文]

ETL拦截器

定义intercept

1.获取数据

byte[] body = event.getBody();

String json = new String(body);

2.校验数据是否合法

定义logUtils类封装校验逻辑

NumberUtils.isDigits()判断是否纯数字

[展开全文]

flume:

TAILDIR:支持断点续传

[展开全文]