3256-董宏-python数据分析-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

# 函数rotation=90旋转的度数

[展开全文]
3233小风 · 2022-08-30 · 自由式学习 0

###调整x或者y轴上的参数

1.from matplotlib import pyplot as plt引入函数

2.plt.figure(figsize=(20,8),dpi=80)

#figurezide图片大小,(长,宽),dpi越大越不容易失真

 

 

from matplotlib import pyplot as plt

x=range(2,26,2)
y=[15,13,14,5,17,20,25,26,26,27,22,18,15]

#设置图片大小
#figurezide图片大小,(长,宽),dpi越大越不容易失真
plt.figure(figside=(20,8),dpi=80)

#绘图
plt.plot(x,y)

#设置x轴
_xtick_labels=[i/2 for i in range(2,49)]
plt.xticks(_xtick_labels[::3])

#保存

#plt.savefig("./t1.png")
#展示
plt.show()
[展开全文]
3233小风 · 2022-08-30 · 自由式学习 0

选择行,

选择列

选择行列

 

[展开全文]

hist 直方图

from matplotlib import pyplot as plt

from matplotlib import font_manager

a=[zifuchuan]

plot.hist(a.fenzushu)

细节

计算组数=num_bin= (max(a)-nim(b)//d)

d=5

组数= 极差/组距

x轴的刻度设置

plt.xticks(range(min(a),max(a)+d,d))

plt.show()

图形大小:plt.figure(figsze=(20,8),dpi=80)

{数据}

 

 

 

[展开全文]

数组的形状

shape即可查看数组的各个维度长度(输出按三维二维依次降低,块、行、个)

reshape方法可以重新设置行列,是有返回值的,而不改变本身

有返回值才会输出

结合shape和reshape可以做到在不清楚维度长度的情况下降维

flatten可以将数组展开变成一维

 

数组的计算

numpy数组对数字进行+*-/计算,是对全部单元进行计算

nan>>not a number 0/0

inf>>infinite x/0

数组对数组进行计算:

不同维度的数组进行计算至少有一个维度的长度相同

广播会在缺失或者长度为1的维度上进行(不同维度的计算本质上是广播)

广播原则:如果两个数组的后缘维度,即从末尾开始算起的维度轴长相符,或者某一方的长度为1,即广播jian'r

[展开全文]
Flying_X · 2022-05-22 · 自由式学习 0

一维数组只有0轴,二维有0、1轴,三维有0、1、2轴

reshape(0,1,2),shape输出(2,1,0)

CSV逗号分隔值文件

numpy的读取文件方法

unpack参数实现行列转置

transpose,T,swapaxes(1,0)方法实现行列转置

[展开全文]
Flying_X · 2022-05-22 · 自由式学习 0

numpy的索引和切片

索引从0开始

2:取得连续多行,[[2,5,6]]多一个[]取得不连续的行

:,1取得单列

:,1:取得连续列

:,[]取得不连续列

取得行列交叉的内容

取得不相邻的点

[展开全文]
Flying_X · 2022-05-15 · 自由式学习 0

mysql数据查询

条件查询:

比较条件: > < = != <>   跟在where后面

in 查询 指定一个数据容器

between 表示一个区间  1到10  还可以表示时间范围

null值的判断 如果是一个空值对象的话 用is判断

如果是空字符串的话,则使用 = 判断

排序 order by  【asc升序 desc降序】可以指定多个字段排序;

 

聚合函数:

count()

max()

min()

length()

sum()

avg()

round()

date()

substr()   left right

分组和分页

分组 group by

as 取别名

分组条件的筛选 where having

where 跟在from后面

having跟在group by后面

limit分页 select * from student limit start(起始位置) count(读取数量)

连接查询

内连接:inner join 两种表共同的数据

左连接:left join 参考左边的表为基准查询表,右边的表用null填充;

右连接 right join 参考右边的表为基准查询表,左边的表用null填充

 

子查询

1、标量查询 一行一列查询 单个值

2、列级子查询 一行多列 多个值

3、行级子查询 多行一列

4、表级子查询 多行多列【用来做数据源】

保存查询结果:

insert into 表名 select 查询来充当数据源;

union去重输出

union all 输出多次查询的结果;

[展开全文]

这个老师的逻辑能力和语言组织能力真的是匮乏 前言不搭后语 自己把自己绕进去了

[展开全文]

这课程讲的就和拿着稿子照本宣科一样

[展开全文]

如果要计算某个维度下的用户数,不要直接count()

[展开全文]
2855Kevin · 2022-04-11 · 自由式学习 0

全列插入:

insert into 表名 values( ‘数据1’, ‘数据2’, ‘数据3’……)

部分插入:

insert into 表名 (字段1,字段2 ……)values( ‘数据1’, ‘数据2’, ……),( ‘数据1’, ‘数据2’, ……)

[展开全文]

电信日志分析:

描述:

  1. 以什么为基础计算:电信用户上网所产生的数据
  2. 数据主要来源:访问日志和安全日志
  3. 目的:异常IP的检测、关键词的过滤、违规违法用户的处理
  4. 方法:通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能实现
  5. 数据量:1T-20T左右
  6. 集群数量:10台-100台

项目架构分析:

  1. 数据采集层(千兆网卡以上):
    • 用户访问日志数据:数据格式;
      数据采集的方式:ftp
      数据上传时间
      小文件合并:shell(JNotify)
    • 用户安全日志数据:
      触发上传要求
      数据采集方式:socket--C++完成数据采集,缓存到内存磁盘
      数据格式:加密码加密形式
  2. 数据储存层:HDFS分布式文件系统
  3. 数据分析层:
    1. MapReduce:数据清洗
    2. HIVE
    3. hbase:固定条件查询
    4. impala:实时性较高的要求
    5. SPARK:解决单一数据源多指标在内存中的计算
    6. OOZIE:任务调度
    7. mysol:HIVE和oozie元数据存放
  4. 机器学习层:在大数据的存储和计算基础上,通过构建机器学习构建机器学习模型,对事实作出预判

项目优化:HDFS+SPARK一站式分析平台

[展开全文]

机器学习模型=数据+算法

 

统计学习=模型+策略+算法

模型:规律 y=ax+b

 

损失函数=误差函数=目标函数

算法:如何高效找到最优参数

 

决策函数 或 条件概率分布

[展开全文]

半监督学习:一部分有类别标签,一部分没有类别标签

主动学习:依赖于人工打标签

聚类的假设:将有标记的样本和无标记的样本混合在一起,通过特征间的相似性,将样本分成若干个组或若干个簇;使得组内的相似性较大,组间的相异性较大,将样本点都进行分组,;此时分组点的样本点即包含了有类别标签的也包含了没有类别标签的,根据有类别标签的样本,按照少数服从多数的原则对没有加标记的样本添加标记。至此,所有未标记的数据都可以加以分配标记。

半监督学习转化为监督学习。

 

强化学习:解决连续决策问题。

为其可以是一个强化学习问题,需要学习在各种局势下如何走出最好的招法

迁移学习:小数据集:两个相关领域(解决数据适应性问题)

个性化

深度+强化+迁移

[展开全文]

监督学习:分类问题、回归

 

分类:决策树、KNN、贝叶斯、SVM、LR

回归:线性回归、多元回归LASSO回归、RIDGE回归、Elastic回归

 

无监督学习(非监督学习):

1、聚类(Kmeans)在没有类别标签的情况下,根据特征相似性或相异性进行分类;

2、特征降维(PCA. LDA):根据算法将高维特征降低到了低维

 

[展开全文]

机器学习个概念的理解:

数据集:

定义数据集的名称

行:样本或实例

列:特征或属性,最后一列(类别标签列,结果列)

特征、属性空间:有特征维数所张成的空间

>>特征向量:组成特征火属性空间中的样本点

>>特征值或属性值:组成特征向量中的值

 

[展开全文]

基于规则的学习:它是一种硬编码方式

X 自变量   定义域 特征

Y因变量    值域  结果

fx----f(对应关系)----->y(函数、映射、模型)

 

基于模型的学习:y=kx+b 寻求k和b的最佳值

通过数据构建机器学习模型,通过模型进行预测;

机器学习学的是模型中的k和

[展开全文]