1184-刘同学-算法方向-数据挖掘方向-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

列表排序

修改原列表,不生成新列表的排序

a=[40,10,20,30]

a.sort()   #默认升序

a.sort(reverse=True)   #降序排列

import random

random.shuffle(a) #随机打乱顺序

建新列表的排序

内置函数sorted(),这个方法返回新列表,不对原列表修改

a=[40,10,20,30]

a=sorted()

c=sorted(a,reverse=True)

reversed()返回迭代器

内置函数reversed()也支持逆序排列,不对原列表做修改。

max和min

返回列表中的最大最小值

sum

对数值型列表所有列表求和,非数值型报错

[展开全文]

误差来源于两个——一个是bias,还有一个是variance。出现bias是由于开始就没有瞄准靶心;出现vaiance是由于瞄准了靶心,但是发射的时候出现了偏离。我们的目标是低bias和低variance。

红色的部分是分别在考虑输入值一次方、三次方和五次方函数进行5000次实验的结果,蓝色的线条是将5000次实验结果进行平均即结果

越简单的模型,bias越大,variance比较小;反之,模型越复杂,variance越大,但是平均值却比较接近于期望值

bias较大的情况,问题出现在underfitting;

variance较大的情况,问题出现在overfitting

Diagnosis:

(1)当模型不能拟合训练集时,我们有较大的bias;

(2)当模型可以集合训练集,但是在测试集上出现了较大的损失值,则很大可能上有较大的variance

for bias, redesign模型:
(1)add more feature as input

(2)a more complex model

for variance

(1)more data(增加每次实验的样本量)

(2)Regularization我们希望曲线越平缓越好

伤害:只包含了比较平滑的曲线,在取值上产生了较大的bias

model selection:

我们想要找到尽可能小的bias和variance来得到最小的损失值

[展开全文]

列表元素访问和计数

通过索引直接访问元素

索引区间[0,列表长度-1],超过范围则报错

index()获得指定元素在列表中首次出现的索引

index(value,[start,[end]])

a=[10,20,30,40,50]

a.index(50,3)

count()获得指定元素在列表中出现的次数

a=[10,20,30,20,50]

a.count(20)

len()返回列表长度

列表中元素的个数

成员资格判断

in关键字判断

a=[10,20,30,40,50]

20 in a

[展开全文]

列表元素的删除

del删除

删除列表指定位置的元素

a=[10,20,30]

del a[1]

print(a)

pop()方法

pop()删除并返回指定位置元素,如果未指定位置则默认操作列表最后一个位置

a=[10,20,30]

b=a.pop()

print(b)

remove()方法

删除首次出现的指定元素,不存在则异常

[展开全文]

Regression回归

1、应用场景

(1)Stock Market Forecast

(2)Self-driving Car

(3)Recommendation

2、步骤

(1)给一个Model

(2)Goodness of Function(函数优度)

输入:a function一个函数

输出:loss funchtion——how bad it is 

Pick the “Best”Function

(3)Gradient Descent

梯度下降:初试化w和b这两个参数,不断迭代更新,知道找到最优解,也就是使损失值达到最小的参数值

在线性回归里,是不需要担心找不到全局最优解的,因为其三维图形是一圈一圈的等高线,不管从哪个方向都可以找到最优解

how's the results?

训练的目的是损失值最小,但是通过训练集得到的损失值是比测试集得到的损失值小的,为了减少误差,我们需要改进模型——引入了二次方、三侧方和四次方的函数

overfitting——更复杂的模型会得到更不好的结果,所以模型并不是越复杂越好。

what are the hidden factors——pokemon的物种会影响他们值

根据不同的输入值,对不同的物种设置不同 的权重,此时仅设置了输入值的一次方,还可以考虑输入值的二次方函数

产生了过拟合的结果

设置较为平缓的曲线,由于w的值大于零小于1,当其越接近于0,结果是越为平缓的,前面的系数越大,代表我们越考虑smooth,越可以较多得关注参数w本身的值

[展开全文]

列表的创建

基本语法[]创建

a=[]

list()创建

list可以将任何可迭代的数据转变成列表

a=list('zifuchuan')

range()创建整数参数

range([start,]end[,step])

start可选,表示起始数字,默认0

end必选,表示结尾数字

step可选,表示步长,默认1

推导式生成列表

a=[x*2 for x in range(5)] #循环创建多个元素

a=[x*2 for x in range(100) if x%9==0] #通过if过滤元素

[展开全文]

1.比较运算符可以连用

3<a<10

2.位操作

&=按位与

|=按位或

^=按位异

<<左移1位相当于乘以2;左移两位相当于乘以4

>>右移1位相当于除以2;右移两位相当于除以4

运算符优先级问题

复杂表达式一定要使用小括号组织

1.先乘除,后加减

2.位运算和算术运算>比较运算符>赋值运算符

 

 

[展开全文]

可变字符串

在pyhton中,字符串不可变。可以使用io.StringIO对象或array模块原地修改字符串。

import io

s='hello,sxt'

sio=io.StringIO(s)

print(sio.getvalue())

sio.seek(7)

sio.write('g')

print(sio.getvalue())

[展开全文]

字符串常用方法汇总

常用查找方法

len(a) 计算字符串长度

a.startswith('字符串') 是不是以指定字符串开头

a.endswith('字符串') 是不是以指定字符串结尾

a.find('字符串') 第一次出现指定字符串的位置

a.rfind('字符串') 最后一次出现指定字符串的位置

a.count('字符串') 指定字符串出现了几次

a.isalnum() 判断所有字符串全是字母或数字

a.isalpha() 判断所有字符串全是字母(含汉字)

去除首尾信息

strip() 去除首尾指定信息

lstrip() 去除首指定信息

rstrip() 去除尾指定信息

大小写转换

a.capitalize() 产生新的字符串,首字母大写

a.title()  产生新的字符串,每个单词都首字母大写

a.upper() 产生新的字符串,所有字符全转成大写

a.lower() 产生新的字符串,所有字符全转成小写

a.swapcase() 产生新的字符串,所有字母大小写转换

格式排版

a.center(10,'*') 居中

a.ljust(10,'*') 左对齐

a.rjust(10,'*') 右对齐

[展开全文]

字符串驻留机制和字符串比较

字符串驻留:仅保存一份相同且不可变字符串的方法,不同值被存放在字符串驻留池中。(仅包含下划线、字母和数字会启用字符串驻留机制)

字符串比较和同一性

可以用==,!=进行字符串比较

使用is/ not is,判断两个对象是否同一个对象,比较的是对象的地址

成员操作符

in /not in 关键字,判断mou'g

[展开全文]

按位或:表示取最大(每位)

按位与:最小

按位异:每位相同为0;相异为1

[展开全文]

str()实现数字转型字符串

使用[]提取字符

正向搜索:最左侧第一个字符,偏移量(索引)是0,第二个偏移量1,以此类推,直到len(str)-1为止。

反向搜索:最右侧第一个字符,偏移量(索引)是-1,倒数第二个偏移量-2,以此类推,直到-len(str)为止。

a='abcd'

print(a[0])

print(a[-1])

replace()实现字符串替换

字符串不可变,创新了新字符串

a=a.replace("c","高")

[展开全文]

转义字符

\(在行尾时) 续行符

\\ 反斜杠符号

\' 单引导

\" 双引导

\b 退格(Backspace)

\n 换行

\t 横向制表符

\r 回车

字符串拼接

1.用+拼接

2.多个字符串直接放到一起

字符串复制

用*实现字符串复制

不换行打印

前面调用print时,会自动打印一个换行符。

有时不想换行时,可以通过end="任意字符串"实现末尾添加任何内容。

print("sxt",end=' ')

print("sxt",end='\t')

从控制台读取字符串

input()

[展开全文]

同一运算符

同一运算符用于比较两个对象的存储单元,实际比较的是对象的地址。

is 判断两个标识符是不是引用同一个对象

is not 判断两个标识符是不是引用不同对象

is与 == 区别:

is用于判断两个变量引用对象是否为同一个,既比较对象的地址

== 用于判断引用变量引用对象的值是否相等,默认调用对象的_eq_()方法

整数缓存问题

python仅对比较小的整数对象进行缓存,命令行中范围【-5,256】

Pycharm或保存为文件时,范围【-5,任何正整数】

is运算符比==效率高,在变量和None进行比较时,应该使用is

[展开全文]

布尔值

True和False本质还是1和0,甚至可以和数字相加。

比较运算符

所有比较运算符返回1表示真,返回0表示假。这分别与特殊的变量True和False等价。

== 等于 比较对象的值是否相等

!=不等于 比较对象的值是否不相等

逻辑运算符

1. or 或

2. and 与

3. not 非

 

[展开全文]

【操作】定义多点坐标_绘出折线_并计算起始点和终点距离

import turtle

import math

x1,y1=100,100

x2,y2=100,-100

x3,y3=-100,-100

x4,y4=-100,100

turtle.penup()

turtle.goto(x1,y1)

turtle.pendown()

turtle.goto(x2,y2)

turtle.goto(x3,y3)

turtle.goto(x4,y4)

dis=math.sqrt((x1-x4)**2+(y1-y4)**2)

 

[展开全文]

时间的表示

计算机时间的表示是从“1970年1月1日 00:00:00”开始,以毫秒(1/1000秒)进行计算。我们把1970年这个时刻成为“unix时间点”。

python中可以通过time.time()获得当前时刻,返回值以秒为单位,带微秒精度的浮点值。

import time

time.time()

[展开全文]

浮点数

浮点数,称为float

浮点数用科学计数法来表示,比如3.14表示成:314e-2

类型转化和四舍五入

1.类似于int(),float()

2.round(value)可以返回四舍五入的值 注:但不会改变原有值,产生新的值

增强型赋值运算符

运算符+、-、*、/、//、**和%和赋值符=结合可以构成“增强型赋值运算符”

a=a+1等价于a+=1

[展开全文]

整数

-0b 或 0B,二进制 0 1

-0o 或 0O,八进制0 1 2 3 4 5 6 7

-0x 或 0X, 十六进制0-9 a b c d e f

这三种进制可以非常方便的进行“位运算”操作。

【操作】测试不同进制

0b101

0o10

0xff

使用int()实现类型转换:

1.浮点数舍去小数部分

2.布尔值Ture转为1 False转为0

3.字符串(整数可以转化,其他不行)

自动转型:整数和浮点数混合运算,结果自动转型浮点数

整数可以多大?

googol=10**100

Python3 int可以存储任意大小的整数,适合科学运算的特点

[展开全文]

最基本内置数据类型介绍(type)

1.整数

2.浮点型 小数

3.布尔型 True、False

4.字符串型

/浮点数除法 //整数除法 %模(取余) **幂

除数为0,会报错

divmod(a,b)得到商和余数

[展开全文]