3507-毕同学-人工智能学科-计算机视觉方向 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费
#修改原列表,不修改新的列表排序
a.sort ##默认是升序
a.sort(reverse= true) ##降序排列

import random
random.shuffle(a) ##打乱排序
[展开全文]

【10,20,30,40,50,60,70】【-5:-3】

##倒数第五和倒数第三,包头不包尾

结果:【30,40】

【10,20,30,40,50,60,70】【::-1】

##反向提取

结果:【70,60,50,40,30,20,10】

#print列表的遍历
[展开全文]
#account 计数
#len 列表长度
##index()获得指定元素在列表中首次出现的索引

 

[展开全文]
a = ["明天出去吗?","不,要去做核酸"]
a.remove('明天出去吗?')
a
[展开全文]

#bin(c)#打印二进制数

bin(c&b)

bin(c^b)亦或,相同是0,不相同是1

左移相当于*2右移相当于/2

a==3

a<<3

#字符串拼接

“3”+“2”==“32”

【10,20,30】+【5,10,100】=【10 20 30 5 10 100】

#乘法

“sxt”*3 =sxtsxtsxt

【10,20,30】*2=【10,20,30,10,20,30】

[展开全文]

io.StringIO 可变符号串

例如:

s = 'hello.sxt'

import io

sio = io.StringIO(s)

sio

[展开全文]

a='abcdfehunlnklnaskdkl'

a[1:5]

a[-5:]

 

 

[展开全文]

del 变量名  #删除

[展开全文]

上确界:M=supE

下确界:M=infE

[展开全文]

电信日志分析:

描述:

  1. 以什么为基础计算:电信用户上网所产生的数据
  2. 数据主要来源:访问日志和安全日志
  3. 目的:异常IP的检测、关键词的过滤、违规违法用户的处理
  4. 方法:通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能实现
  5. 数据量:1T-20T左右
  6. 集群数量:10台-100台

项目架构分析:

  1. 数据采集层(千兆网卡以上):
    • 用户访问日志数据:数据格式;
      数据采集的方式:ftp
      数据上传时间
      小文件合并:shell(JNotify)
    • 用户安全日志数据:
      触发上传要求
      数据采集方式:socket--C++完成数据采集,缓存到内存磁盘
      数据格式:加密码加密形式
  2. 数据储存层:HDFS分布式文件系统
  3. 数据分析层:
    1. MapReduce:数据清洗
    2. HIVE
    3. hbase:固定条件查询
    4. impala:实时性较高的要求
    5. SPARK:解决单一数据源多指标在内存中的计算
    6. OOZIE:任务调度
    7. mysol:HIVE和oozie元数据存放
  4. 机器学习层:在大数据的存储和计算基础上,通过构建机器学习构建机器学习模型,对事实作出预判

项目优化:HDFS+SPARK一站式分析平台

[展开全文]

机器学习模型=数据+算法

 

统计学习=模型+策略+算法

模型:规律 y=ax+b

 

损失函数=误差函数=目标函数

算法:如何高效找到最优参数

 

决策函数 或 条件概率分布

[展开全文]

半监督学习:一部分有类别标签,一部分没有类别标签

主动学习:依赖于人工打标签

聚类的假设:将有标记的样本和无标记的样本混合在一起,通过特征间的相似性,将样本分成若干个组或若干个簇;使得组内的相似性较大,组间的相异性较大,将样本点都进行分组,;此时分组点的样本点即包含了有类别标签的也包含了没有类别标签的,根据有类别标签的样本,按照少数服从多数的原则对没有加标记的样本添加标记。至此,所有未标记的数据都可以加以分配标记。

半监督学习转化为监督学习。

 

强化学习:解决连续决策问题。

为其可以是一个强化学习问题,需要学习在各种局势下如何走出最好的招法

迁移学习:小数据集:两个相关领域(解决数据适应性问题)

个性化

深度+强化+迁移

[展开全文]

监督学习:分类问题、回归

 

分类:决策树、KNN、贝叶斯、SVM、LR

回归:线性回归、多元回归LASSO回归、RIDGE回归、Elastic回归

 

无监督学习(非监督学习):

1、聚类(Kmeans)在没有类别标签的情况下,根据特征相似性或相异性进行分类;

2、特征降维(PCA. LDA):根据算法将高维特征降低到了低维

 

[展开全文]

机器学习个概念的理解:

数据集:

定义数据集的名称

行:样本或实例

列:特征或属性,最后一列(类别标签列,结果列)

特征、属性空间:有特征维数所张成的空间

>>特征向量:组成特征火属性空间中的样本点

>>特征值或属性值:组成特征向量中的值

 

[展开全文]

基于规则的学习:它是一种硬编码方式

X 自变量   定义域 特征

Y因变量    值域  结果

fx----f(对应关系)----->y(函数、映射、模型)

 

基于模型的学习:y=kx+b 寻求k和b的最佳值

通过数据构建机器学习模型,通过模型进行预测;

机器学习学的是模型中的k和

[展开全文]

GPU图形图像处理器(处理速度是CPU的10倍以上)

机器学习==CPU+GPU+数据+算法

机器学习:致力于研究如何通过计算(CPU和GPU计算)的手段,利用经验来改善(计算机)系统自身的性能

是人工智能的核心

从数据中产生或发现规律

数据+机器学习算法=机器学习模型

有了学习算法我们就可以把经验数据提供给他,他就能基于这些数据产生模型

 

如何判断问题是否为机器学习问题?

预测性的

[展开全文]