3629-耀同学-Python学科-数据分析 已关闭

3629-耀同学-Python学科-数据分析 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

路径分析定义:

漏斗模型是非常经典的一种分析方法,但所有漏斗都是人为假设的,也就是事前假设一条关键路径,时候看数据。

随着各类APP的功能模块、坑位越来越多,用户的行为越来越分化,这个时候就要在用户的所有操作行为中,发现一些产品设计初可能不知道、但非常有意思的用户前后行为,这就是路径分析。

漏斗分析:认为设定一条或者若干条漏斗:先假设,再有数据验证。

路径分析:基于用户的所有行为,去挖掘出若干条重要的用户路径,通过优化界面交互让产品用起来更加流畅和符合用户习惯,产生更多价值:现有数据再验证假设。

 

以美团为例

美团APP主要功能有:

搜索、美食、电影/演出、酒店住宿、休闲娱乐、外卖

很优惠、有格调、秒杀、周末去哪儿、猜你喜欢

附近:里面还有很多功能

发现、订单、我的

大多数APP都是这种坑位,把能做的都做了;

漏斗分析完全满足不了日常分析,这个时候路径分析就派上用场了;

日志介绍:

日志:用户在APP内所有的行为都是以表或者文件存储的,记录了用户最详细的行为信息。

路径分析是基于时间序列的用户前后行为关联分析,所以都是基于底层日志来做

Key-value格式

imei='100086110001', ip='10.10.10.10', neicun='4G', fenbianlv='720*1080';

jixing='huaweiP8',xitong='android 6.0', event='tuijian', active='sousuo', ver='11.0', sver='1', op_tm='111110200321'

设备号、机型、内存、分辨率、具体行为、具体行为事件、单挑记录内、分隔、记录间行分隔

要知道日志的格式,这块操作耕读偏linux命令,会基本的linux就行

 

路径分析步骤

1、筛选:所有功能用户的量级查看,筛选出重要功能;

2、日志关联:先时间序列排序用户行为、再关联功能间数据;

3、标准化及画像:数据标准化及路径画图

4、启发:找出有意思路径;

 

 

[展开全文]

背景:

有了指标体系和报表后,最重要的事情就是每天看各种数据到了,也就是流量分析

流量(用户)分析的定义:这里的流量是广义流量,从哪里来,经过什么,产生什么价值,如果它波动了,为何波动

1、渠道分析——从哪里来

2、转化分析——经过什么

3、价值分析——产生什么价值

4、波动分析,包括日常监控分析

 

一、渠道分析:

1、常见渠道及其分类

内部渠道:如:产品矩阵:头条给抖音带量

外部渠道(付费):搜索引擎:百度;APP广告:头条内推京东双11;社交媒体:微信朋友圈广告;软件市场:应用宝、华为手机市场;

对于一款健康的APP,前期靠渠道要特别是外部渠道的品牌带量,后期靠自传播或者免费推广,一般都会单独有渠道运营经理,其实分析师在这块价值不大;

2、渠道推广的整个过程:

外部渠道->文案展示->落地页->下载->打开->浏览->注册->……->退出;中间可以优化

 

3、渠道的关键指标及分析方法

关键指标:前期看有效用户数和次留,中期看次留、7日、30日留存,后期看ROI

有效用户数:由于渠道都是收费的,所以会有刷量的先易,所以除了看直接量级,还要看有主动行为的用户数,比如之前课程里讲得停留大于3秒的用户数;

渠道最终的目的是商业变现,所以一定要计算每个渠道的ROI,把ROI小于1的渠道砍掉;

分析方法:结构分析+趋势分析+对比分析+作弊分析

结构分析:对渠道首先按照以及渠道来拆解,在按照耳机渠道来拆解

趋势分析:看每个渠道的变化趋势,包括量级和存留

对比分析:不同渠道间的趋势对比

作弊分析:用户行为分析+机器学习,这块可以用Python来完成;

 

转化及价值分析

1、漏斗分析:

针对需要提升的某一步,核心思想都是用户细分;按照用户基础属性和行为属性来拆分

基础属性:手机品牌、低于、imei特征

行为属性:入口、时段、用户活跃度、用户标签

对有问题的群体进行针对性优化—精细化;

2、功能模块常规分析:

常规分析:

 

 

4、功能模块价值分析:

 

5流量波动分析:

常见流量分析就是两个:日活和留存,所以就围绕这两个点来展开;

日或波动=外部影响&内部影响

外部影响:

=行业变化&精品变化=常识+外部事件+精品策略

内部影响:=数据统计+用户基础属性+用户行为属性

数据统计:书有没有搞错——数据采集和统计口径

用户基础属性:用户从哪里来,通过什么方式进入——渠道(新增用户变化)、入口、画像

用户行为属性:用户进来干什么——具体功能的变化,跟版本可能有关。

留存分析

留存波动=新用户留存&老用户留存

新用户留存=渠道+渠道过程有关

老用户留存=所有功能用户去重留存+ 大盘非功能用户留存

=各功能留存(A、B、C……)+大盘肺功能留存

十几种,会出现以下几种情况(假设留存下跌)

ABC中有1个留存下跌——最好解释

ABC中有两个以上留存下跌——看谁是主要下跌因子,找到他,

如果下跌幅度都差不多:

1、进一步观察,如果还是持续阴跌,必然是产品某核心部分出现问题,围绕指标体系做一次产品全盘分析,找到他

2、跌了几天之后回去了,可能跟外部影响因素有关,暂时不管

在留存这件事上,由于是比例,排查起来会比较费神,保持耐心,多跟也无聊,一定能找到主要影响因子。

 

[展开全文]

指标体系的定义和选取原则;

定义:在业务的不同阶段,分析师千头、业务方协助,指定一套能从各个维度去反映业务状况的一套待实施框架

指标选取原则:根本性、可理解性、结构性

根本性:核心数据一定要理解到位和准确

可理解性:所有指标要配上业务解释性,如日活的定义是什么,打开还是点击还是进程在就行

结构性:能够充分对业务进行解读,新增用户只是一个大数,我们还需要知道每个渠道的新增用户,每个渠道的转化率、每个渠道的新增用户价值。

 

建立指标体系的四个步骤;

指标的构成

1、原子性指标:最基础的不可拆分的指标,如:交易额

2、修饰词,可选,如:某种场景,如:搜索

3、时间段,时间周期,如:双11

4派生指标:双11这一天通过搜索带来的交易额

次日留存、日活、月活、日转化率;

 

指标体系建立四步法:

1、厘清业务阶段和方向;

业务前期:创业期;

关注:盘子大小

此时,最关注用户量,吃标体系应该紧密围绕用户量的提升来做各种维度的拆解,如:渠道;

 

业务中期:

盘子大小,健康度;

除了关注用户量的走势,更加重要的是优化当前的用户量结构,如:用户留存,如果留存偏低,必然跟产品模块有关系,是不是某功能流量承接效果太差。

 

业务后期:成熟发展期

收入及市场份额

成熟发展期,一定要看收入指标,各种商业化模式的收入,同时做好市场份额和竞品监控。

 

2、确定核心指标;多去了解业务和市场头部玩家

最重要的是找到正确的核心指标,这不是一件容易的事,不是因为这件事很难,而是让所有人都去重新接受一些客观事实很难。

举例:某款产品的日活口径是打开APP,通过不断地买流量,日活也一直在上升,然而分析师发现,打开APP用户中,3秒跳出率达30%,非常不健康,那么当前的核心指标——日活实际上已经有问题了,更家豪的核心指标是停留时长大于3秒的用户数

每个APP的核心指标都不太一样,所以一定要多花时间去考虑这件事,这个非常重要,不只是看日活和留存那么简单(趣头条)

 

 

 

 

3、核心指标核心维度拆解;

核心指标的波动必然是某种维度的波动引起,所以要监控核心指标,本质上还是要监控维度核心指标;

通用的拆解方法都是对核心指标进行公式计算,再按照业务路径来拆解

当前的核心指标是停留时长大于三秒的用户数

停留时长大于3秒的用户数=打开进入APP的用户数*停留时长大于三秒的占比

打开进入APP的用户数这块要关注:渠道转化率、打开方式、用户画像;

停留时长大于3秒的占比这块要关注:停留时长的分布,停留大于3秒的用户特征和行为特征;停留小于3秒的用户特征,有无作弊的可能。

 

4、指标宣贯、存档、落地

宣贯:搭建好指标体系后,要当面触达所有相关的业务接口人,最好开会并邮件;

存档:同时要对指标的口径和业务逻辑进行详细的描述存档,如:***功能的渗透率=该功能的日奠基人数/日活。只有到这一层,后面的人才能一眼看懂是什么意思。

落地:就是建核心指标的相关报表了,实际工作中,报表都是在卖点前建好的,这样的话一旦版本上线就能李可看到数据,而且这个时候各方的配合度最高。

数据分析师经常抱怨临时提数要求太多,就是因为指标体系没做好。

 

五、知乎 APP指标体系实操;

1、当前业务发展阶段

知乎当前处于业务发展期和成熟期之间,2个论点

A 当前纸糊的业务正在一个快速调整期,内容向娱乐大众化转型

B 商业化进行较大探索,但不是做的很重

也就是说无论最核心的内容还是商业模式,都在探索当中

实际工作中,这块只要看一下每年的业务规划即可得到答案。

 

2、对于首页推荐子产品最重要的就是问答数

问答数=提问数+回答数=提问人数*人均提问数+回答数*人均回答数

提问人数这里是否有必要按照漏斗模型来拆解?我的理解是不用;

 

提问数=提问人数*人均提问数

提问数继续拆:提问人的画像、提问人的漏斗模型

提问人的画像:渠道、个人资料(是否大V)、知乎盐值

提问人的漏斗模型:进入、点击、提问

 

人均提问数可以拆为:人均提问数分布:只有1次提问的人数占比

提问种类分布:娱乐类提问、体育类提问、学术类提问;

整个过程是跟业务进行大量的交流,同时要有自己的独立思考;

3、核心指标拆解

有些同学聚德评论点赞收藏是核心指标,实际上是这样:

评论点赞多跟产品的健康度没有直接关系,评论点赞多的本质是因为提问回答比较精彩,这是一个相关性而不是因果性关系

很多做内容的同学,都觉得评论很重要,只要我评论做上去了,日活就能涨上去,数据相关性上就是这样,但业务逻辑性不对;

所以评论点赞收藏这些都是一个二级功能,更底层的理解实际上是增加APP的社交属性。

 

4、会议、存档、建表

会议:产品(负责使用)、研发(负责打点)

存档:对不太好理解的指标要进行单独解释,比如什么是日活

建表:确定好打点之后,就要建表,确保数据第一时间出来,能及时发现问题;

字段:是否大V ;-》业务语言:粉丝数超过1000人;-》技术语言:Action日志中Follow_uv>10000;业务人员:小A;研发人员:小B;

实际工作中,不需要一套大而全的指标体系,只需要围绕当前的核心指标,解决最重要的问题即可;

 

[展开全文]

针对一个陌生行业的数据分析需求,我们如何去入手?

例:原始需求

提供门店信息表(省份、城市、门店编码、大区、销售目标)

产品信息表(产品编号、产品名称、品类、单价、产品经理、销售目标)

销售经理表(包括销售经理、大区、销售目标)

销售数据表(包括年份、月份、门店编码、产品编码、销售金额、订单数、销售数量、单价、客单价、省份城市大区)

人无需求

一、2016年全国销售状况报告(1月—7月):

1、目的:展示2016年全国的销售情况

2、未读:细分未读包括但不限于时间、地域、产品等;

二、2016年全国销售状况导出的框架图片(1月—7月)

1、展现形式:Xmind导出的框架图片

2、目的结构化展示报告的整体逻辑

需求解读

原始需求往往是模糊的,但是:分析师不要带着不好的态度去推脱业务的需求,应该跟业务良好沟通,有些业务就是表达能力不太好;

销售行业的核心指标就是销售额完成率:按照正常业务理解进行围堵拆解;

销售额完成率包括:区域完成率、门店完成率、销售经理完成率,个指标分为产品和时段2个维度。

 

提炼如何去分析一个陌生行业

感到无从下手是因为:1、没有找到切入点;2、没有具体生动的案例;

1、厘清业务模式(知道在干啥)-》寻找北极星指标(最重要的是什么)-》主体纬度拆解分析(具体案例)-》小发现大猜想(发散收敛)->数据验证(闭环)

[展开全文]

大数据的4V特征:

  1. 数据量大
  2. 数据种类多:
    结构化数据(mysql);
    非结构化数据(音频视频:HDFS/MR/HIVE);
    半结构化数据(XML/HTML: HDFS/MR/HIVE);
  3. 速度快:
    增长速度快
    处理速度快(实时、离线)
  4. 价值密度低
    价值密度=有价值的数据/ALL
    价值高
    机器学习算法解决问题
[展开全文]

游戏数据分析需要兼具互联网思维(电商)和金融思维

 

重要指标理解——常规指标:

DAU, WAU, MAU

一个产品的日活、周活、月活

以欢乐斗地主为例,日活是每天打开该APP的用户数;

留存率:一般看次留、7留、30留存率

次留率:第一天打开欢乐斗地主并且第二天也打开欢乐斗地主的人数/第一天打开欢乐斗地主的人数

渗透率:某功能模块的使用人数/该产品的日活

欢乐斗地主商城渗透率:进入商城的用户数/DAU

 

转化率:针对某个连贯路径,使用下一个节点的用户数/使用上一个节点的用户数

打开APP—进入房间—参加比赛

MAU指用户规模

 

重要指标理解——商业化指标:

ARPU

一个时间段内的每用户平均收入

ARPU=付费金额/活跃人数

欢乐斗地主付费金额200万,活跃人数100万,每个用户平均收入2元;

 

CPM

千次曝光的成本

CPM=(广告投入总额/所投广告的展示次数)*1000

例:某广告主在欢乐斗地主的闪屏界面投入一个广告10万,共1000万次展示,CPM=10

 

CPC

每个点击用户的成本

CPC=广告投入福总额/锁头广告带来的点击用户数

某广告主在欢乐斗地主里面投了一个闪屏广告100万,共产生点击50万,CPC=2

 

ROI

投资回报率

ROI=收入/支出=ARPU*用户数/所有支出

双11在欢乐斗地主内部投放一个广告100万,最终带来收入200万,ROI=2.

用户流失分析:

定义要准确,不同产品设定的时间段不同

 

欢乐斗地主用户流失分析:

对于游戏行业的用户流失分析,即有其他行业的累死套路,但又有一些差异化很大的点

累死套路:看流失前最后一步在干啥

差异化很大的点:作为一款非常复杂,需要花用户大量时间的APP,分析师需要想好研究用户为何流失,也必须要去很深入的玩游戏,找到游戏中的快感和痛点,跟其他玩家多交流,否则就脱离业务。

[展开全文]

授信模型:

芝麻信用分结构:

身份(who): 小学毕业还是博世毕业—稳定性

履约能力(what):有没有房车—兜底性

信用历史(when):信用卡有无逾期—历史性

人脉关系(who):你得支付宝朋友是不是土豪—稳定性验证+弱价值性;

行为偏好(what):喜欢买奢侈品还是地摊货—真正价值

 

数据源

数据并不是越多越好。

数据变量分为:原始变量、衍生变量

原始变量:直接存储在数据库里的基础变量,如你每日交易额

衍生变量:因为金融的本质是风险,所以都要队员是变量进行加工转化,一般是三种

1、时间维度衍生:最近一个月交易额、最近三个月的交易额

2、函数衍生:最大交易额、最小交易额、交易额方差

3、比率衍生:最近一个月交易额/最近三个月交易额

在选择变量的时候:基于RMF原则,即最近、频次、钱,所有跟这三个属性相关的变量都要先保留。

 

数据处理

服务与业务,初期都比较简单,慢慢迭代。

 

字符串数字化

数据标准化

 

建模前的思考

由于身份特质、履约能力、信用历史、人脉关系、行为偏好5大模块在不同时期的权重不一样,所以每个模块都要单读建模;

在建模前,一定要把业务目标先理一理,这样才能找到用什么模型;

就芝麻信用来说,我们的目的是希望根据用户在这5个模块的综合芝麻分来给用户一些其他额外服务,比如花呗借呗免押金,同事保证用户不违约。

因此逻辑上就是:

根据用户的数据,算出违约的概率,而这个概率也可以转化为用户的分数

所以逻辑回归模型就自然而然涌上了。

总结:授信模型:数据源、数据处理、数据标准化、数据建模、模型落地、模型优化,这一套数据分析标准化流程非常像,模型最终的评估指标就是坏账率。

数据建模师:数据源在前期就已经决定了模型的效果,要具备良好的沟通能力和快速反馈能力,金融行业本身比较成熟,比模型更加重要的是分析师自身的想法和验证。

在前期重点是围绕数据源和数据处理,模型,无论是逻辑回归、决策树、GBDT、随机森林、神经网络,问题都不会很大,与纯互联网行业对比,金融行业数据建模师的价值更容易得到体现,而且相对更有趣。

 

[展开全文]

一、如何去看京东App

1、京东App用户视角:

搜索:流量最大的一个入口

广告banner:各种宣传活动

导航:十宫格,相对比较稳定,10大主要产品

Feeds流:电商+内容

个性化推荐:千人千面

底部button:5大主模块,方便快速查看

 

2、京东APP分析视角

作为一名分析师,应该更能深入,并且有层次性的去看这个APP的数据

有三个为题需要思考;

1、引流(场):首页作为最大的带量位,分发效率怎么评估;

2、漏斗(货):北极星指标交易额知识一个数字,更加重要的是理解这个数字转化的过程;

3、用户(人):作为一款非常成熟的APP,老用户相对比较稳定,但新用户获取应该怎么优化。

其中引流是对APP整体的分析,漏斗是对核心路径的分析,用户是对产品的当前痛点进行分析。

二、首页的分发效率

除了要关注日活、留存、渗透率这些常规的指标外更加重要的是找到一些能够反映产品问题的指标

CTR:点击UV/曝光UV,反映用户点击渔网的指标,非常重要,只有点击才能产生交易,如果较小,首页问题较大;

人均访问(点击)页面数:总访问页面数(PV)/总访问UV,只有多访问页面,才可能产生交易

围绕这两个指标,按照未读拆解方法,可以发现很多问题

比如CTR突然低了,那么是所有坑位的CTR均低还是个别引起。

分发效率总结:

基于日活、留存、渗透、分发效率,基本上就能够对APP的整体数据有个大概了解;作为一名优秀的分析师,除了要把自己负责的产品做好外,更重要的是不要设定边界,主动去了解整体数据,在这个过程中,你需要找到负责的产品跟大盘的数据关系。

找到:业务功能与产品核心指标的关联性,量化、量化、量化

1、该产品确实很好的带来了大盘的提升;

2、该产品只是在强大盘的流量;

3、该产品部分抢大盘流量,部分提升,那么提升度到底多少;

 

三、绕不过的漏斗分析

背景:了解完整体数据后,看具体细分数据,虽然整体APP坑位很多,但一切都是围绕交易额这个目标,而电商交易额的本质是转化率,所以任何一个坑位都绕不开漏斗模型

在所有坑位中,搜索是最大的一个流量入口,因此以搜索为例

搜索主界面全部UV-》店面页UV-》详情页查看UV-》加入购物车UV-》提交订单UV-》收银台UV-》成功交易UV

作为一名分析师,一定要多体验产品,找到新认知,这也是微观能力

了解每层漏斗的影响因素

1、请教老同事;2、买电商书籍回来看;3、多机型体验产品;

搜索主界面全部UV:引流渠道:桌面图标打开进入搜索还是其他

店面页UV:搜索框搜索、热点搜索、语音搜索

详情页查看UV:客服、评论、店铺设计、商品属性;

加入购物车UV:尺寸、颜色、数量

提交订单UV:物流、是否只是7天无理由退货、发票、运费

收银台UV:支付方式多样性

交易成功:密码错误、冲动消费、界面异常、其他打断

四、新用户分析

背景:作为一款非常成熟,在一线城市有很多忠实用户的APP,当前在用户体量上与手淘相差仍然较大,因此我们会看到京东与与各方APP战略性合作,共同拉新。

拉新必然就要衡量拉新效果和拉新优化,拉新效果内部数据不太清楚,但是作为一名分析师,可以去看整个APP在拉新上可以优化的店。实际上拉新如果做得好,比老用户分析更容易出成绩。

新用户分析建议:

新用户与老用户相比,由于对APP不熟悉,因此在漏斗环节,可能会有几个特征

1、用户行为较为离散化,数据上可能有几个主要漏斗;

2、在某个环节转化率远比老用户低

3、新用户当天以逛为主,不下单,过一段时间后再下单;

数据分析师能做的就是:把自己当做一个新用户去体验各种路径,并对异常漏斗进行拆解(比如:是不是某个渠道的新用户转化率低,引起整体低)

 

[展开全文]

美团外卖近期订单量下降5%,需要分析师给出一些解释并提供下一步建议;

参考答案:

订单量下降5%属于什么水位,影响范围多大,如果发现对收入有重大影响,那么这个时候CEO都会关注这件事,所以就要更加全面的去考虑这件事。(投入100%时间)。

具体分析模块:

流量波动模型

1、常识判断-》节假日;

2、竞品数据-》饿了么数据大涨;

3、外部事件-》社会负面事件;

4、产品变化-》产品发布新版本,功能有缺陷

5、用户行为-》订单地域分布;

6、数据问题-》数据采集;

流量波动也可能是作弊

常用的3个APP-分析师的思考深度怎么样?

这里的建议是:说跟应聘岗位相关的APP,比如应聘的产品是QQ音乐。这个时候你就可以说常用的三款APP是网易云、微信读书、知乎、尽量透露一些你的亮点;

面试官会进一步问:就网易云来说,能不能说下你对这个产品最喜欢的点,以及最想吐槽的点—是不是高于普通用户;

回答:最喜欢网易云的每日推荐,最想吐槽的点是:很多时候是通过搜索来选择听某歌,但是搜索栏里没有语音输入,同时下面的热门搜索跟我的画像非常不准,都不是我喜欢的,那些歌、明星可能我都没听过——已经有了自己的简洁,不只是简单的使用产品而已。

面试官再问:好,那么如果你是产品经理,你会如何解决这个问题?回答:先看热门搜索的点击率是多少,如果较低的话就说明确实有问题;可以把热门搜索这块和用户画像匹配上,实现千人千面,同时在搜索栏增加语音输入功能。

面试官再问:怎样评估这样做是否能带来指标的提升?

答:这种先开始小流量AB测试,然后再睡慢慢放量,如果效果不错,就全量。

 

面试官问:能不能说下你对AB测试的理解,如正交性;

问题三:商业化变现—对商业的最终目的是否敏感

举例:能不能举例一款工具类产品,说说是如何商业化的;

回答:以墨迹天气app为例,首页天奇button是主流量入口,进行底部下拉时会出现资讯,而在资讯里面有较多广告app下载链接,所以这是一个app带量商业化

时景button,内部有较多旅游景点、住宿、住宿类app下载推荐,所以这里是一个资深app高相关商业化推荐

Me这个button,分生活、娱乐、休闲、游戏四大板块,而每个模块都有自己的商业化坑位。

面试官问:目前产品的主要商业化收入来自哪里,各自CPM大概多少

回答:主要来自时景button的旅游景点推荐,cpm大概在6元

面试官问:当前产品商业化提升的腾点是什么,之前做过那些优化方案,效果如何?

回答:作为工具类产品,用户停留时长较短,这是最大痛点。作为一款天气app,我们发现我们的用户周末效应非常明显,周末用户很多,所以当时就想我们存在一批用户群(所有的商业化都是先找一个切入点),在周末的时候就会出去游玩,加上后来的调研,发现果然是这样,所以我们就跟这种旅游景点合作,做线下场景推荐,效果现在也是最好的。

数据分析业务线的考量标准:

产品理解能力:各种数据熟悉度、用户从哪里来,进来后做了什么,用户反馈最多问题是什么,竞品数据怎么样

分析方法论:常见分析方法有哪些,ab测试,最大概率法则,28定理,幸存者偏差理解怎么样

可视化能力:ppt工地怎么样,专题报告逻辑性、金字塔原理、审美怎么样

演讲能力:表达能力、讲故事能力、形象化能力、大心脏能力怎么样

协作能力:跟产品、业务、研发沟通时的软技能、如何在团队中定义好自己的位置并让其他人很舒服

逻辑思维:分析推导过程的全面性、合理性、价值性

技术:excel的常见操作方法、SQL能不能闭着眼睛斜,r能不能搭建模型冰之岛哪些是坑,Python是否能很好的用上。

 

优化自己1

比如小A发现自己在可视化、演讲、写作上还可以,但在产品理解、数据分析方法论上不太高,因此就要补上这两个短板。

产品理解:

先以当前业务的产品为切入点,先熟悉最核心数据,再了解功能渗透率和关键路径;再以这些数据为切入点,去思考当前产品有哪些问题,并与产品经理沟通如何优化。同时要去看竞品和行业数据,最重要的是深入了解而不是略懂。

举个例子:假设当前的产品app是食品类,那么肯定要深入研究爱奇艺、腾讯、优酷这三个app

略懂:通过搜集网上数据,直到dau\mau\核心功能,整个行业大概规模。

深入了解:对于整个视频行业,各个不同阶段的领头羊是谁,他们依靠什么成为领头羊,又因为什么出现增长瓶颈,当前各自的打法侧重什么,对我们自身的app有什么借鉴,后续要监控哪些数据,只有到了这一步才是你自己的洞见。

 

优化自己2

方法论:能快速从一个较全面、逻辑性、价值性的角度去分析,而不是单点无架构性分析,所有方法论都是通过不断提炼、总结、实践得出来的。这个是评估一个分析师水平的重要标准。

1、指标体系方法论;2、流量分析方法论;3、路径分析方法论;4、产品分析方法论;5、营销活动分析方法论;6、用户流失分析方法论;

 

4、寻找对象并实践

挑选3家一般公司——面试训练

挑选2家规模比较大、知名度较高的公司——保底要进

挑选两家业内知名公司——尝试

设定一个跳槽时间段,比如3个月,期间最重要的事情是瞄准那两家保底要进的公司。注意:鱼油这两家是你职业生涯的一个转折点,所有简历要单独写,要花几天时间不断去打磨。

每一次面试后都多总结,找到自己的不足并多训练

最后就是面试环节,最重要的是表达、表达、表达。所以真正的面试时间是非常长的,前期的准备是要花几个月的时间,只有这种训练才能有优秀的企业要你。

 

 

[展开全文]

数据异常排查:

前期:

理解业务。指标口径。产出过程

中期:

判断是否异常:

  1. 异常
  2. 近期、历史(时间轴)
  3. 关联指标知否也异常

最大概率法则归类:

  1. 假期效应;
  2. 热点事件;
  3. 活动;
  4. 政策;
  5. 底层系统故障;
  6. 统计口径

闭环:需要有后期验证:

  1. 后期跟踪数据
  2. 文档化
  3. 邮件化

 

 

[展开全文]

招聘解析:

去除神秘感

看到差距

如何准备

 

阿里:对技术要求不高,对综合能力要求高;工作三道五年技术都差不多;

腾讯:用户增长;《增长黑客》

百度:用户增长;

 

日常主要工作:数据异常排查

融入专项背景KPI

 

数据异常排查:对数据波动进行排查解释;

1、目前数据本身有问题;二、业务有问题;

前期准备:

1、业务理解;2、指标口径;3、当前数据产出过程;

指标的业务含义;

异常排查的三个步骤:

1、判断是否异常;

亲自去看数据准确性,不要人云亦云;

时间轴拉长,看是近期异常(3个月),还是历史异常;

看和该指标关联的其他指标或者其他核心指标是否也异常;

找到一个关键人物(产品/数据),提前沟通一下

2、最大概率法则回归类:就那么几种原因,所以要沉淀,按照概率一项一项排查;

假期效应、热点事件、活动影响、政策影响、底层系统故障、统计口技

3、闭环:

持续跟踪后期数据是否在此异常;

记录、沉淀、文档化

邮件化:只有确认了没有问题再邮件,描述影响范围和主要结论即可。

 

融入专项—专题分析

项目组专题分析有三个特征:

有目标——紧贴项目KPI

有节奏——2-3周时间输出一份完整报告

有闭环——所有报告都说人话,办人事

 

融入专项——3各阶段

第一阶段:新用户留存整体分析

目的:摸清数据现状,同时找到若干切入点

关键点:不要太注重细节,该报告讲究产出的时效性,让其他人员感受到分析师的存在。

 

第二阶段:寻找优化切入点,一般是1-2个;

如:1、关键路径数据发现先曝光PV到点击PV的CTR很低,围绕这个点细致分析;对于新用户,应该曝光什么,在什么时候,什么位置曝光等等。

2、某个量大的耳机渠道次留明显低于其他渠道,围绕这个点,进一步分析;对于该渠道,用户留存过低是因为:本身渠道质量存在问题?用户已经安装竞品?当前产品设计与渠道用户不太匹配?同事高留存的渠道本身特征是什么?通过1-2,就已经能给产品运营不少建议了,配合AB测试,就能看到数据分析结果。

第3阶段:

不断的重复前面两个阶段,继续寻找其他切入点;

同时进行竞品分析、营销活动分析、用户流失分析等等;

除了寻找本身产品的切入点,还要跳出当前项目思维,进行竞品分析,活动分析等;整个过程就是在不断地“试错”,每一次分析报告都有能落地的点,并且真的落地了,这就是闭环,这也是优秀分析师最重要的一个评判标准;

 

面试技巧——最重要的是前3面

1面-电话面:简历上的数据要非常熟悉,说话有条理性和逻辑性,大心脏能力;

2面-boss1面:微笑、和蔼可亲,带上一份优秀的专题报告,准备一些技术。

事先了解应聘企业的APP,准备问题,问面试官;应聘大厂的人有很多,要让自己脱颖而出。

3面-boss2面:了解产品宏观知识,多用产品APP,一个代表性项目,要考虑的非常全面。

 

必问的三个问题:流量波动、三个常用的APP、商业模式;

 

 

 

[展开全文]

支持向量机的分类方法,是在这组分布中找出一个超平面作为决策边界,使模型在数据上的 分类误差尽量接近于小,尤其是在未知数据集上的分类误差(泛化误差)尽量小。

决策边界一侧的所有点在分类为属于一个类,而另一侧的所有点分类属于另一个类。如果我们能够找出决策边界, 分类问题就可以变成探讨每个样本对于决策边界而言的相对位置。比如上面的数据分布,我们很容易就可以在方块 和圆的中间画出一条线,并让所有落在直线左边的样本被分类为方块,在直线右边的样本被分类为圆。如果把数据 当作我们的训练集,只要直线的一边只有一种类型的数据,就没有分类错误,我们的训练误差就会为0。

但是,对于一个数据集来说,让训练误差为0的决策边界可以有无数条。

[展开全文]

支持向量机(SVM,也称为支持向量网络),是机器学习中获得关注最多的算法没有之一。它源于统计学习理论, 是我们除了集成算法之外,接触的第一个强学习器。它有多强呢?

从实际应用来看,SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛,在文本和超 文本的分类中举足轻重,因为SVM可以大量减少标准归纳(standard inductive)和转换设置(transductive settings)中对标记训练实例的需求。同时,SVM也被用来执行图像的分类,并用于图像分割系统。。除此之外,生物学和许多其他科学都是SVM的青睐者,SVM现在已经广泛被用于蛋白质分类,现 在化合物分类的业界平均水平可以达到90%以上的准确率。在生物科学的尖端研究中,人们还使用支持向量机来识 别用于模型预测的各种特征,以找出各种基因表现结果的影响因素。

从学术的角度来看,SVM是最接近深度学习的机器学习算法。线性SVM可以看成是神经网络的单个神经元(虽然损 失函数与神经网络不同),非线性的SVM则与两层的神经网络相当,非线性的SVM中如果添加多个核函数,则可以 模仿多层的神经网络。

[展开全文]
使用Navicat(导航猫)连接MySQL
[展开全文]
2285_Y_513 · 2021-10-10 · 解锁式学习 0

高效嵌入法embedded

 

[展开全文]

业务选择

说到降维和特征选择,首先要想到的是利用自己的业务能力进行选择,肉眼可见明显和标签有关的特征就是需要留 下的。当然,如果我们并不了解业务,或者有成千上万的特征,那我们也可以使用算法来帮助我们。或者,可以让 算法先帮助我们筛选过一遍特征,然后在少量的特征中,我们再根据业务常识来选择更少量的特征。

PCA和SVD一般不用

逻辑回归是由线性回归演变而来,线性回归的一个核心目的是通过求解参数来探究特征X与标签y之间的 关系,而逻辑回归也传承了这个性质,我们常常希望通过逻辑回归的结果,来判断什么样的特征与分类结果相关, 因此我们希望保留特征的原貌。PCA和SVD的降维结果是不可解释的,因此一旦降维后,我们就无法解释特征和标 签之间的关系了。当然,在不需要探究特征与标签之间关系的线性数据上,降维算法PCA和SVD也是可以使用的。

统计方法可以使用,但不是非常必要

逻辑回归对数据的要求低于线性回归,由于我们不是使用最小二乘法来求解,所以逻辑回归对数据的总体分布和方差没有要求,也不需要排除特征之间的共线性,但如果我 们确实希望使用一些统计方法,比如方差,卡方,互信息等方法来做特征选择,也并没有问题。过滤法中所有的方法,都可以用在逻辑回归上。

 

[展开全文]

重要参数penatly&C

1、正则化

L1正则化和L2正则化虽然都可以控制过拟合,但它们的效果并不相同。当正则化强度逐渐增大(即C逐渐变小), 参数的取值会逐渐变小,但L1正则化会将参数压缩为0,L2正则化只会让参数尽量小,不会取到0。

在L1正则化在逐渐加强的过程中,携带信息量小的、对模型贡献不大的特征的参数,会比携带大量信息的、对模型 有巨大贡献的特征的参数更快地变成0,所以L1正则化本质是一个特征选择的过程,掌管了参数的“稀疏性”。L1正 则化越强,参数向量中就越多的参数为0,参数就越稀疏,选出来的特征就越少,以此来防止过拟合。

相对的,L2正则化在加强的过程中,会尽量让每个特征对模型都有一些小的贡献,但携带信息少,对模型贡献不大 的特征的参数会非常接近于0。通常来说,如果我们的主要目的只是为了防止过拟合,选择L2正则化就足够了。但 是如果选择L2正则化后还是过拟合,模型在未知数据集上的效果表现很差,就可以考虑L1正则化。

 

[展开全文]

为什么需要逻辑回归

1. 逻辑回归对线性关系的拟合效果好到丧心病狂,特征与标签之间的线性关系极强的数据,比如金融领域中的 信用卡欺诈,评分卡制作,电商中的营销预测等等相关的数据,都是逻辑回归的强项。虽然现在有了梯度提 升树GDBT,比逻辑回归效果更好,也被许多数据咨询公司启用,但逻辑回归在金融领域,尤其是银行业中的 统治地位依然不可动摇(相对的,逻辑回归在非线性数据的效果很多时候比瞎猜还不如,所以如果你已经知 道数据之间的联系是非线性的,千万不要迷信逻辑回归);

2. 逻辑回归计算快:对于线性数据,逻辑回归的拟合和计算都非常快,计算效率优于SVM和随机森林,亲测表示在大型数据上尤其能够看得出区别;

3. 逻辑回归返回的分类结果不是固定的0,1,而是以小数形式呈现的类概率数字:我们因此可以把逻辑回归返 回的结果当成连续型数据来利用。比如在评分卡制作时,我们不仅需要判断客户是否会违约,还需要给出确 定的”信用分“,而这个信用分的计算就需要使用类概率计算出的对数几率,而决策树和随机森林这样的分类 器,可以产出分类结果,却无法帮助我们计算分数(当然,在sklearn中,决策树也可以产生概率,使用接口 predict_proba调用就好,但一般来说,正常的决策树没有这个功能)。

另外,逻辑回归还有抗噪能力强的优点。福布斯杂志在讨论逻辑回归的优点时,甚至有着“技术上来说,最佳模型 的AUC面积低于0.8时,逻辑回归非常明显优于树模型”的说法。并且,逻辑回归在小数据集上表现更好,在大型的 数据集上,树模型有着更好的表现。


由此,我们已经了解了逻辑回归的本质,它是一个返回对数几率的,在线性数据上表现优异的分类器,它主要被应 用在金融领域。其数学目的是求解能够让模型对数据拟合程度最高的参数 的值,以此构建预测函数 ,然后将 特征矩阵输入预测函数来计算出逻辑回归的结果y。注意,虽然我们熟悉的逻辑回归通常被用于处理二分类问题, 但逻辑回归也可以做多分类。

[展开全文]

重要接口inverse_transform

神奇的接口inverse_transform,可以将我们归一化,标准化,甚至做过哑变 量的特征矩阵还原回原始数据中的特征矩阵,这几乎在向我们暗示,任何有inverse_transform这个接口的过程都 是可逆的。PCA应该也是如此。

 

[展开全文]