2755-尉迟同学-Python数据分析-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

什么是变量?

变量就是一个盒子,可以装任何东西,当里面装了苹果,就可以当苹果箱来用;装了苹果,箱子和其他的东西结合的时候,它就属于苹果;否则就属于另外的功能,比如香蕉

在python中,变量的概念和初中代数的方程变量是一致的。

y=x*3  x是变量

在计算机中,在写程序的时候,变量不仅可以是数字,也可以是其他类型;

食材+菜谱->厨师-- >美味佳肴

变量+逻辑->python解释器-->软件的功能

其实变量就相当于原材料(在计算机当中,就是数据)

变量=存储的数据

变量是一段有名字的连续存储的空间,我们可以通过定义变量来申请并命名这样的存储空间,并通过变量的名字来使用这段存储空间。

变量是程序中临时存放数据的场所

 

 

2、变量如何来定义和使用

定义(规则 变量名=数据)

a=10(根据肤质类型,开辟相应的空间)

a是变量的名字,对应的一个盒子,里面装的数据就是10

先定义变量,才能使用变量

变量是可以多次赋值的,在程序执行过程中,值可以改变的量

变量就是用来存储数据的

赋值时不需要指定数据类型,给这个变量赋值什么数据类型,这个变量就是什么类型。

 

数据类型:数字(num)、字符串(str)、字典(dic)t、元组(Tuple)、列表list)

 

数字(num):int(有符号整数),long(长整数);float(浮点型),complex(复数),布尔值(bool):Ture, False;

 

字典、元组、列表属于高级数据类型,也是数据结构

可以用type关键字查看变量的数据类型

print(type(变量))

[展开全文]

Pycharm: 适用于专业开发人员的Python IDE, 提高代码质量,编写整洁和可维护的代码,而IDE可以帮助通过PEP8检查,测试帮助,智能重构和一系列检查来保持质量。Pycharm是程序员为程序员设计的。

1、智能Python辅助;

2、Web开发框架;

3、科学计算的工具;

4、跨技术开发;

5、远程开发能力;

6、内建开发者工具;

 

左侧:资源结构区

右侧:代码编写区

上方:菜单功能区

下方:结果展示

 

pycharm的优点

节省时间和精力,目的就是让开发者更加的快捷方便,通过提供的工具和各种性能来帮助开发者组织资源,减少失误;

建立开发标准,

[展开全文]

什么是注释?

注释是编写程序时,写程序的人给一个语句、程序段、函数等的解释或提示。

 

注释的作用:

1、提高代码的可读性;提高开发效率,尤其对大型项目或者团队项目有重要的意义。

2、还可以进行代码的调试,ji一部分代码注释掉,对问题进行排查,进行完善

注释可以起到一个说明的作用,这个方法函数、变量到底是干嘛用的,如果没有注释,时间长了即使是自己可能都不知道这代码到底是干嘛用的。所以注释起到的作用就是方便自己查看写过的代码,别人来接收你的代码能看懂。简单来说就是能提高程序代码的可读性,以便于以后的参考、修改。

 

Python中单行注释用#号,#号邮编就是注释的内容,Python解析器遇到#号就会当做注释,不回去解析#号后面的内容

 

单行注释:用#号 注释可以用快捷键”command+/“,单行注释用一个井号就行。注释的内容不会被程序执行。

多行注释 在python中多行注释用'''或“”“,前后都要

 

特殊注释:

Python中有两句特殊的注释,在py文件首行#!/usr/bin/python3;

#--coding=utf-8--

这两句注释分别指的是指定python解析器的路径,指定python解析器的路径,指定编码格式,智能写在py文件最前面。

指定编码格式,一般用于python2版本,由于python2版本解析器默认Python采取ASCII编码,不支持中文。为了能在Python3版本的代码上写中文,如果需要兼容Python2版本,一般都加上指定编码格式这一行代码。

[展开全文]

电信日志分析:

描述:

  1. 以什么为基础计算:电信用户上网所产生的数据
  2. 数据主要来源:访问日志和安全日志
  3. 目的:异常IP的检测、关键词的过滤、违规违法用户的处理
  4. 方法:通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能实现
  5. 数据量:1T-20T左右
  6. 集群数量:10台-100台

项目架构分析:

  1. 数据采集层(千兆网卡以上):
    • 用户访问日志数据:数据格式;
      数据采集的方式:ftp
      数据上传时间
      小文件合并:shell(JNotify)
    • 用户安全日志数据:
      触发上传要求
      数据采集方式:socket--C++完成数据采集,缓存到内存磁盘
      数据格式:加密码加密形式
  2. 数据储存层:HDFS分布式文件系统
  3. 数据分析层:
    1. MapReduce:数据清洗
    2. HIVE
    3. hbase:固定条件查询
    4. impala:实时性较高的要求
    5. SPARK:解决单一数据源多指标在内存中的计算
    6. OOZIE:任务调度
    7. mysol:HIVE和oozie元数据存放
  4. 机器学习层:在大数据的存储和计算基础上,通过构建机器学习构建机器学习模型,对事实作出预判

项目优化:HDFS+SPARK一站式分析平台

[展开全文]

学习操作基本的dos或者Mac系统的命令

[展开全文]

优点:

1、简单易学

解决业务问题,语法简单。

2、免费、开源

3、丰富的第三方库

4、可以移植

5、面向对象

 

缺点:

1、运行速度慢:

相较于C语言慢,C是编译型语言。

Python程序->解释器->CPU

 

4、全局解释器锁

[展开全文]

Python是一种面向对象的解释型计算机程序语言,由吉多、范罗萨姆开发,第一个公开发行版本发布于1991年。被称为胶水语言,能够把其他语言制作的各种模块很轻松的联结在一起。

思维->python->机器语言(010101)->计算机执行

解释器做的事情就是翻译工作

[展开全文]

机器学习模型=数据+算法

 

统计学习=模型+策略+算法

模型:规律 y=ax+b

 

损失函数=误差函数=目标函数

算法:如何高效找到最优参数

 

决策函数 或 条件概率分布

[展开全文]

半监督学习:一部分有类别标签,一部分没有类别标签

主动学习:依赖于人工打标签

聚类的假设:将有标记的样本和无标记的样本混合在一起,通过特征间的相似性,将样本分成若干个组或若干个簇;使得组内的相似性较大,组间的相异性较大,将样本点都进行分组,;此时分组点的样本点即包含了有类别标签的也包含了没有类别标签的,根据有类别标签的样本,按照少数服从多数的原则对没有加标记的样本添加标记。至此,所有未标记的数据都可以加以分配标记。

半监督学习转化为监督学习。

 

强化学习:解决连续决策问题。

为其可以是一个强化学习问题,需要学习在各种局势下如何走出最好的招法

迁移学习:小数据集:两个相关领域(解决数据适应性问题)

个性化

深度+强化+迁移

[展开全文]

监督学习:分类问题、回归

 

分类:决策树、KNN、贝叶斯、SVM、LR

回归:线性回归、多元回归LASSO回归、RIDGE回归、Elastic回归

 

无监督学习(非监督学习):

1、聚类(Kmeans)在没有类别标签的情况下,根据特征相似性或相异性进行分类;

2、特征降维(PCA. LDA):根据算法将高维特征降低到了低维

 

[展开全文]

机器学习个概念的理解:

数据集:

定义数据集的名称

行:样本或实例

列:特征或属性,最后一列(类别标签列,结果列)

特征、属性空间:有特征维数所张成的空间

>>特征向量:组成特征火属性空间中的样本点

>>特征值或属性值:组成特征向量中的值

 

[展开全文]

基于规则的学习:它是一种硬编码方式

X 自变量   定义域 特征

Y因变量    值域  结果

fx----f(对应关系)----->y(函数、映射、模型)

 

基于模型的学习:y=kx+b 寻求k和b的最佳值

通过数据构建机器学习模型,通过模型进行预测;

机器学习学的是模型中的k和

[展开全文]

GPU图形图像处理器(处理速度是CPU的10倍以上)

机器学习==CPU+GPU+数据+算法

机器学习:致力于研究如何通过计算(CPU和GPU计算)的手段,利用经验来改善(计算机)系统自身的性能

是人工智能的核心

从数据中产生或发现规律

数据+机器学习算法=机器学习模型

有了学习算法我们就可以把经验数据提供给他,他就能基于这些数据产生模型

 

如何判断问题是否为机器学习问题?

预测性的

[展开全文]

数据:观测值、感知值,测量值

信息:可信的数据

数据分析:对数据到信息的整理、筛选和加工的过程。

数据挖掘:对信息进行价值化的分析

用机器学习的方法进行数据挖掘。机器学习是一种方法,数据挖掘是一件事情;

 

 

[展开全文]

人工智能包括机器学习,机器学习包括深度学习

机器学习是人工智能落地的一个工具。

机器学习是人工智能的一个分支

深度学习是机器学习的一种方法,为了解决机器学习领域中图像识别等问题而提出的

[展开全文]

 

数据分层:

数据采集层、数据存储层、数据分析层、数据展示

数据采集层

用户访问日志数据,数据格式:地区吗|用户ip|目的ip|流量……;数据采集方式:采用fatp方式长传服务器;上传时间:每小时上传上一小时的数据;小文件合并:通过shell完成文件合并;监控文件:JNotify

用户的安全日志数据:

当用户触犯电信部门制定的只读、违反国家法律法规

数据采集方式用:Socket---C++完成数据采集,先缓存到内存再到磁盘;

数据格式:加密码:加密形式 abc:79217979web

网卡配置:千兆或万超网卡配置

 

数据存储层:HDFS分布式文件系统

 

数据分析层:用Mapreduce、Impala\Spark

1、完成数据清洗(缺失字段处理、异常值处理等

2、使用MR和Redis进行交互完成地区码201和地区名字的转换

3、使用MR处理好的数据进一步加载到Hive中做处理

4、试用MR将数据入库到HBASE完成固定条件查询

5、给到Spark中实时查询

 

机器学习层:

机器学习位于大数据上层,完成的是在大数据的数据存储和数据计算之上,通过数据结合机器学习算法建构机器学习模型,利用模型对现实时间做出预测

 

数据展示:Oracle+SSM

 

[展开全文]

用户研究,一种职业意识

 

什么时候做用户研究

用户研究是贯穿整个项目生命周期的

项目前期:用户需求情况

用户基础画像情况:用户对于低价商品的迫切度

项目中期:用户行为习惯

项目后期:用户对产品的反馈点、竞品试用情况

所有一切都是为了更好的去了解用户,与数据分析相辅相成:从数据角度有时并不能很好地反映用户的行为及原因

用户研究在项目启动前就应该展开,要快于其他地方,所以非常考验用眼人员的先见性和实操性

 

用户研究的步骤和关键点

1、制定研究目的:有良好的背景和具体的问题

选择研究方法:定量和定性方法要对

研究结论的产出:精而快

 

例子:

项目:今日头条APP新用户留存专项

项目背景:2015年今日头条APP新用户次留、7留与竞品相比,留存均低于%%绝对值,并且新用户流失速度要高于竞品,因此要在数据分析基础上,产品运营优化,提升用户留存5%绝对值。

 

用户研究的三个阶段实施——制定研究目的

针对每一个专项,用眼人员更要主动地参与进去,在多沟通的过程中其他方会觉得你得数据价值更大

制定研究目的:

在前期,用眼人员就应该要能快速的了解到当前问题的现状,制定思维导图,也就是说,所有人做的都是同一件事,只不过落地方式不一样,更好的了解用户和产品,更好的解决问题。

 

新用户留存(用户基础特征(年龄、地域、性别、文化程度),用户需求和痛点(新闻预期和当前问题),竞品情况(有没有使用其他竞品))

嗅觉灵敏

 

用户研究的三个阶段实施——确定研究方法

定性:日记研读、用户访谈、参与式设计、焦点小组、现场调查、可用性测试、眼动实验;主要是用户访谈;

定量分析:消费者支持数据分析、自动化可用测试、网站日志分析、A/B测试、调查问卷;

 

定性:约用户面聊,侧重于why和how,问得很深很细;

定量:投放问卷,侧重于what, when, where

对于一款产品,如果本身是产品经理、分析师离普通用户太远,就非常有必要做定性分析

定量分析非常注重样本量,同时要确保问卷设计的专业性;

无论是定性还是定量,都需要一定的物质激励,保证能很快的产出。

这件事的意义要大于一次营销活动

 

用户研究的三个阶段实施——结论产出

比较好的节奏是2周内输出,也只有这样:

A、能够和分析师的数据分析报告一起输出,定量定性结合;

B、能够在最迫切需要的时候给出,价值最大化;

C、能够很好地融入到整个项目团队,做的事情真的有意义;

 

用户研究的三个阶段实施——注意点

A、用户说什么不重要,更加重要的是用户为何会这样说

B、不要直接问用户喜欢什么,用户对他们的心理过程根本就不了解:田野工作法(场景中观察)是最好的;

C、定性分析注重用户分类,定量分析注重样本量和样本代表性;

D、结束访谈后,尽快整理成文档,寻找琐碎记忆;

 

用户研究的未来:

短期:用户研究+MVP思想(不需要系统化,解决问题即可,迅速搭建围绕业务目标的模型,解决问题)

长期:人人都是用户分析师

用户报告追求精而快;

 

用户研究和分析师的关系

数据分析师一定要有用户研究意识,常见的做法是:

每天体验数据

每周看客服数据

对于费解的数据分析结论,推动用户研究人员去做用户访谈或者问卷

新项目启动期,如果要去线下了解用户,分析师要抓住这些机会。

[展开全文]

大数据体系:

日志采集和传输、数据建模、数据管理、数据应用(数据分析岗(包括算法)),前三项对应数据研发岗,数据仓库。《阿里巴巴大数据》

熟悉整个行业、专注于某个模块

 

APP采集中的埋点:

前中期:数据分析师进入一家公司时,一定要参与到埋点讨论中去,不要把研发想的很专业,如果买点出问题了,会非常耽误业务分析,很多研发就是纯粹凭感觉埋。在这个过程中把埋点规范起来。

研发和业务直接对,按照他们的理解来分析的时候,分析师发现有些点竟然没有埋,或者埋错了,这个时候你对整个团队都无语。

 

[展开全文]

行业分析

 

行业分析的两种背景:

当前准备进入某行业,需要分析师或者战略部门给出一份详细报告。

业务发展遇到瓶颈,需要分析师去验证当前市场对产品的需求有无变化。

 

行业分析——问题的识别与拆解

分析目标:界定范围、市场规模、社会热点事件、头部玩家、未来预测;

围绕分析目标,把这5大模块说清楚,不在于大而全和什么方法,而在于有所发现。

 

举例:电商行业分析

北京:公司近期是谁做电商业务,管理层直到很难做,但是决策层又想找一些切入点,这个时候就找战略部,希望能给出一些建议

实际上需求是比较模糊的,因为在战略上这件事,确实很难做。

界定范围——在全局视野下找切入点

向左这种移动类综合电商,比如手淘、京东、拼多多

也就是需求在前期慢慢确定下来的,所以一定要有一个完整的产业链图谱。

 

市场规模——交易额描述

1、交易额逐年上升,更加重要的是找到谁在增长,为何增长。

2、当前增长率持续下降的情况下,还有谁逆势上升

 

市场规模——交易额分析

1、数据分析有直接数据和简洁数据两种支持方式,只要说明问题即可;

2、所有的资料都要注意口径和原始数据搜集,即使copy也要找权威的数据源;

3、拼多多才是颠覆者,代表了一种趋势——结论1

 

市场规模——用户数描述

移动电商用户数2018年超5亿人,占总人口比例为36%;即使按照16-59周岁群体(90199万)(占比也只有55%;有缺口,还可以再覆盖。

 

市场规模——用户数分析

1、网民数占比人口数57%,这个数字并没有想象的那么高,仍然有很多未来用户争夺空间(厂商)——结论2

2、移动互联网用户数占比98%,从用户这个角度,移动互联网已经完全可替代PC

3、71%网络购物,短视频竟然是74%:猜测剩下的潜在用户(29%)在短视频里面——结论3

 

社会热点事件——拼多多

2015年9月,拼多多公号上线,上线2周粉丝数破百万;

15年11月,未投广告用户突破1200万;

16年1月,付费用户突破1000万,单日成交突破1000万;

16年7月,B轮融资:高榕、IDG、腾讯

16年9月,与拼好货合并,用户破亿,单月流水破亿;

16年11月,单月GMV20亿,日均单量200万,单日流水2亿;

17年9月,成立2年用户破2亿;

17年11月,用户破3亿,IPO

 

人均可支配收入:

17年数据:大部分是人均2万/年;

用户真没钱—离用户太远

微信及微信支付重构了这些用户的社交方式(18年日活10亿)

整个社会物流效率提升:为何商品这么便宜。

 

头部玩家——拼多多的产品分析

1、日常生活用品为主——高频

2、整个体验就是快,用户基本上一直点下一步就行

3、搜索功能很轻,尽可能让用户懒起来

 

头部玩家——拼多多的用户分析

1、一二线占比超过40%,不只是屌丝这么简单(还有人性),所以未来会出现更多的拼多多产品

2、老大老二打架,老三挂了(唯品会)

3、多、快、好、省:京东是物流快和好;淘宝天猫是多和好;拼多多是省和供应链快(沃尔玛)。

 

[展开全文]

AB测试

AB测试是为Web或APP界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间段内,分别让组成成分相同(相似)的房客群组随机访问这些版本,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。

关键词组成成分相同的房客;同一时间;用户体验数据和业务数据。

也就是说:用户群要一样;一定要是同一时间段对比,否则没意义;A/B测试指标体系(提前搭建)。

 

AB测试流程

1、根据数据分析得到某建议项;

2、根据建议项,产品经理得到某落地项;

3、根据某落地项,研发设计人员进行开发设计(往往是先设计,再丢给测试平台里面跑数据);

4、研发人员数据采集:自动采集数据

5、分析师跟进AB效果:显著性在95%以上并维持一段时间,实验可结束。

整体节奏:灰度、5%、10%、20%、50%、100%(测试量)

业界都有一套AB测试平台(字眼或者购买),能够每天进行大量的AB

 

常见的两种AB测试类型——UI界面

以这个小人为例(墨迹天气):

实际上在产品设计之初,要不要增加一个小人只是一个想法,而这个必须要经过A/B测试才能说要不要实现,因此A版本没有小人,B版本有小人,结果是B版本的数据比A版本摇号,所以最终都有小人

拓展:所有的设计师都要有A/B测试的思想才能更棒。

往往,你认为的好看好用是不靠谱的。

 

常见的两种AB测试类型——算法策略型

针对新用户的内容推荐(小红书)

A策略:100%兴趣预选

B策略:80%兴趣预选+20%随机内容

当前对于任何一款个性化内容APP,给用户的推荐都涉及到大量的算法策略型AB测试

一般而言:AB两个组样本都要在10万以上才可以初步看数据。

 

实际工作中的问题

在严格模式下,所有的专题报告落地项(除了明显的bug修复和明显的用户体验),都要考AB测试展开,然而,分析师经常会遇到这种问题:

2个月前产品上线了短视频功能,两个月后,大盘略涨(之前是略跌趋势),短视频和非短视频的数据增加也明显,现在短视频业务方希望分析师能量化出:大盘的上涨主要是因为短视频带来的。

有些分析师的思路:同一批用户,在试用短视频前后的数据对比

针对这种问题:只能靠AB去解决,在上线短视频功能前就应该AB,否则后面怎么都说不清。

 

数据分析师在AB测试中需要注意什么:

A、AB两个组是否真的相同——研发负责搭建,但分析师要直到大概原理;

B、策略是否生效——研发说进行了AB测试,但分析师要去抽样看;

C、AB测试评估指标体系——要在AB测试之前,就与研发沟通好要看哪些综合性指标

D、多观察几天数据——往往前几天数据可能有点问题,一般3天后数据才可能正式使用;

E、AB测试的存档规划——所有AB都要文档化,方便后续找增长点。

 

策略是否生效

常见现象:

产品经理根据分析师的专题报告落地项X,进行某个AB,最后发现效果不明显,此时所有人都觉得X这个优化项没用,也就没有多去做更多尝试;

分析师:痛仰要去对AB组进行抽样,看B组(实验组)的用户是否真的上线了X优化

多说一句:AB测试系统本身就很复杂,出问题是很正常的,我们不一定要很了解内部详细原理,但是要知道有没有明显问题。

评估指标体系:在AB测试前,就要考虑好最终要用哪些指标来评估效果,最好是能设计出一套综合性指标体系,后续做实验直接看报表数据即可,不用每次单独建表。

格式举例:实验策略、用户数、实验时段、次留、时长、点击率

 

AB测试存档

分析师要定期复盘做了哪些AB,与其效果和实际效果,这个也是落地项的闭环

建议采用5W1H方法来管理AB测试

AB测试项、具体内容、为何测试、测试时间、测试负责人、预期效果、实际效果

 

思考:

对于设计师:设计思维+AB测试,无论是效率上还效果上,都是极大地提升

对于产品:直觉是不靠谱的,AB测试的闭环能够让我们更好的去理解用户;同时要通过AB测试去总结出,我们的用户到底喜欢什么样的策略和界面,让AB测试本身自我迭代;

对于分析师:

对大多数改动都不会带来大幅效果提升,AB测试旺旺效果都是略好,所以要持续迭代,如果某个实验效果非常好,这个时候就要非常小心了。

所以专题分析也是一个持续的过程,越来越深入,越来越了解用户和产品。

[展开全文]