如何看待京东app
以用户视角来看:
1.搜索
2.广告
3.导航
4.feeds流:电商+内容
5.个性化推荐
以分析师视角来看:
1.引流
2.漏斗
3.yong'hu
如何看待京东app
以用户视角来看:
1.搜索
2.广告
3.导航
4.feeds流:电商+内容
5.个性化推荐
以分析师视角来看:
1.引流
2.漏斗
3.yong'hu
明确问题
搭建框架
数据提取
数据处理
数据分析
数据展现
撰写报告
报告演讲
报告闭环
==========
excel---最基础、最重要
对比---筛选和色阶
时间序列拆解---透视图
相关性分析---常用函数
临界点分析---插入图表复杂gong'neng
数据标准化,把它变成标准分布。
t = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
同时调整多个参数,模型运行非常慢。更换数据预处理的方式。
调参可以画学习曲线,或者进行网格搜索。模型调参,第一步找目标。
泛化误差:当模型在未知数据表现很差时,表明模型泛化能力不够。模型太简单和太复杂泛化误差都会很大。
偏差-方差困境。n_estimator增加,不影响单个模型的复杂度。调参方向:降低模型复杂度。
max_deph有增无减,模型复杂度增加。
当复杂度无法再降低时,就可以不用再tiaozhnegle
[*矩阵]查看列的索引。需要Ytest所带的索引,
使用随机森林填补缺失值。n个数据,特征T有缺失值,把特征T当作标签,作为训练集。遍历所有特征,缺失值最少的特征进行填补,因为一开始需要的缺失值最少。当进行到最后一行时,那么在弥补缺失值最多的数据时,就有足够多的准确数据了。
随机森林填补获取数据集时的缺失值。
sklearn.impute.SimpleImputer轻松填补数据缺失值。
随机森林的回归。
分类树与回归树,MSE均方误差。
回归树衡量指标mse、firedman_mse与MAE
sklearn使用负值的均方误差作为衡量指标,因为表示的是损失。
load_boston是一个标签连续型数据集。
regressor是模型
boston.data完整的矩阵、boston.target是标签。来回验证十次,scoring选择指标进行打分。
一半以上的决策树判断错误,才会导致随机森林才会判断错误。
comb是求和。
相同的训练集与参数,随机森林中的树会有不同的判断结果,选择重要的特征进行提问。
estimators,查看森林中树的参数或属性。每棵树中的random_state不一样,导致每棵树都不一样。
random_state固定,随机森林中的树是固定的,但随机挑选的特征,导致树是不一样。随机性越大,效果越好。
bootstrap用于控制抽样技术的参数。
自主集:从原始训练集中进行n次有放回抽样,得到的数据集。自主集会包含63%的原始数据集元素。剩下37%数据可以作为测试模型的数据,称为袋外数据。
wine.target为wine的标签。
一个自助集里,样本A永远不被抽到的概率:(1-1/n)^n
oob_score训练分数。
apply返回所在叶子节点的索引
predict_proba返回每个样本对应类别的标签的概率。
n_estimators基评估器数量,该值越大,越好。
到达一定程度后,精确性会开始波动。
集成算法:在数据上构建多个模型,集成所有模型的建模结果。
集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果。
集成评估器:基评估器,装袋法,提升法,stacking
sklearn中的ensemble,集成算法有一半以上都是树的模型。决策树用于分类和回归问题。通过有特征和标签的表格中,通过对特定特征进行提问,总结出决策规则。
如何找到正确的特征去提问,定义衡量分支质量的指标不纯度。
如果要计算某个维度下的用户数,不要直接count()
如何修改
sklearn中的信息熵,实际上是信息增益。即父节点的信息熵-子节点的信息熵。
非参数:即不限制数据结构和类型
有监督:有标签
电信日志分析:
描述:
项目架构分析:
项目优化:HDFS+SPARK一站式分析平台
机器学习模型=数据+算法
统计学习=模型+策略+算法
模型:规律 y=ax+b
损失函数=误差函数=目标函数
算法:如何高效找到最优参数
决策函数 或 条件概率分布
半监督学习:一部分有类别标签,一部分没有类别标签
主动学习:依赖于人工打标签
聚类的假设:将有标记的样本和无标记的样本混合在一起,通过特征间的相似性,将样本分成若干个组或若干个簇;使得组内的相似性较大,组间的相异性较大,将样本点都进行分组,;此时分组点的样本点即包含了有类别标签的也包含了没有类别标签的,根据有类别标签的样本,按照少数服从多数的原则对没有加标记的样本添加标记。至此,所有未标记的数据都可以加以分配标记。
半监督学习转化为监督学习。
强化学习:解决连续决策问题。
为其可以是一个强化学习问题,需要学习在各种局势下如何走出最好的招法
迁移学习:小数据集:两个相关领域(解决数据适应性问题)
个性化
深度+强化+迁移