数据标准化:数据按照均值中心化后,再按标准差缩放,数据就会变成均值为0方差为1的正态分布
API:from sklearn.preprocessing import StandardScaler
数据标准化:数据按照均值中心化后,再按标准差缩放,数据就会变成均值为0方差为1的正态分布
API:from sklearn.preprocessing import StandardScaler
特征工程:
去中心化:让所有记录减去一个固定值。
数据归一化:把数据按照最小值中心化后再按极差缩放,然后被收敛到0-1之间
preprocessing.minmax
字符窜:
1.下标与切片
2.常用方法
元组:
创建元组
2.元组的方法
列表
1.下标与切片
2.循环遍历
3.常用方法
字典:
1.字典格式
2.字典常用
hello,我叫张一然,我今年13岁了。
我喜欢藏个
小结:
1.学习了单分支,双分支,多分支等。
2学会了while循环。
3.学会了for循环。
4.学会了break和control语句。
1.Python有一个简单的字符串格式化方法,使用%做占位符,%后面跟变量。
2.%(占位符)
3./n(换行作用)
4.format
5.input(输入)
6.type(查询类型)
格式化符号:
1.%c
2.%s
3.%i
4.%d
5.%u
6.%o
7.%X
8.%e
9.%E
10.%f
11.%g
12.%G
算术运算符:
1.+(加法)
2.-(减法)
3.*(乘法)
4.**(指数)
5.%(取余)
6./(除法)
7.//(地板除)
比较运算符:
1.==(等于)
2.!=(不等于)
3.>(大于)
4.<(小于)
5.>=(大于等于)
6.<=(小于等于)
Python基本类型:
1.字符串
2.元组
3.字典
4.列表
数字:
5..int
6.long
7.float
8.布尔值
9.变量必须以字母或下划线开头
10.其他字符可以是字母,数字或__(下划线)
11.变量区分大小写
12.不能用关键字来做变量名
1.变量=储存的数据。
2.变量不仅仅可以是数字,还可以是其他的任意类型。
3.我们可以通过定义变量来申请并命名这样的存储空间,并通过变量的名字来使用这段储存空间。
4.变量是程序中临时储存数据的场所。
fsfada
异常类型:
mysql数据查询
条件查询:
比较条件: > < = != <> 跟在where后面
in 查询 指定一个数据容器
between 表示一个区间 1到10 还可以表示时间范围
null值的判断 如果是一个空值对象的话 用is判断
如果是空字符串的话,则使用 = 判断
排序 order by 【asc升序 desc降序】可以指定多个字段排序;
聚合函数:
count()
max()
min()
length()
sum()
avg()
round()
date()
substr() left right
分组和分页
分组 group by
as 取别名
分组条件的筛选 where having
where 跟在from后面
having跟在group by后面
limit分页 select * from student limit start(起始位置) count(读取数量)
连接查询
内连接:inner join 两种表共同的数据
左连接:left join 参考左边的表为基准查询表,右边的表用null填充;
右连接 right join 参考右边的表为基准查询表,左边的表用null填充
子查询
1、标量查询 一行一列查询 单个值
2、列级子查询 一行多列 多个值
3、行级子查询 多行一列
4、表级子查询 多行多列【用来做数据源】
保存查询结果:
insert into 表名 select 查询来充当数据源;
union去重输出
union all 输出多次查询的结果;
#apply返回每个测试样本所在叶子节点的索引
clf.apply(xtext)
#predict返回每个测试样本的分类、回归结果
clf.predict(xtest)
#决策树 # from sklearn import tree#导入需要的模块 # clf=tree.DecisionTreeClassifier()#实例化 # clf=clf.fit(x_train,y_train)#用训练集数据训练模型 # result=clf.score(x_test,y_test)#导入测试集,从接口中调用需要的信息进行打分
citerion:不纯度,不纯的越低,训练集拟合越好
机器学习
排序:
字符串及常用方法:
等腰三角形:
a=' name '
b=a.strip()去除空格
lstrip()删除左边的空格
rstrip()删除右边的空格
capitalize()首字母变大写
id()内存地址