3064-孙浩博-Python学科-数据分析-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

监督学习:分类问题、回归

 

分类:决策树、KNN、贝叶斯、SVM、LR

回归:线性回归、多元回归LASSO回归、RIDGE回归、Elastic回归

 

无监督学习(非监督学习):

1、聚类(Kmeans)在没有类别标签的情况下,根据特征相似性或相异性进行分类;

2、特征降维(PCA. LDA):根据算法将高维特征降低到了低维

 

[展开全文]

1.自定义异常,都要直接或间接继承Error或Exception类。
2.由开发者主动抛出自定义异常,在python中使用raise关键字,

[展开全文]

算术运算符

+, -,*,**(指数),%(取余),/除法,//(地板除)

 

比较运算符

==  等于

!=  不等于

>

<

>=

<=

[展开全文]

什么是变量?

变量就是一个盒子,可以装任何东西,当里面装了苹果,就可以当苹果箱来用;装了苹果,箱子和其他的东西结合的时候,它就属于苹果;否则就属于另外的功能,比如香蕉

在python中,变量的概念和初中代数的方程变量是一致的。

y=x*3  x是变量

在计算机中,在写程序的时候,变量不仅可以是数字,也可以是其他类型;

食材+菜谱->厨师-- >美味佳肴

变量+逻辑->python解释器-->软件的功能

其实变量就相当于原材料(在计算机当中,就是数据)

变量=存储的数据

变量是一段有名字的连续存储的空间,我们可以通过定义变量来申请并命名这样的存储空间,并通过变量的名字来使用这段存储空间。

变量是程序中临时存放数据的场所

 

 

2、变量如何来定义和使用

定义(规则 变量名=数据)

a=10(根据肤质类型,开辟相应的空间)

a是变量的名字,对应的一个盒子,里面装的数据就是10

先定义变量,才能使用变量

变量是可以多次赋值的,在程序执行过程中,值可以改变的量

变量就是用来存储数据的

赋值时不需要指定数据类型,给这个变量赋值什么数据类型,这个变量就是什么类型。

 

数据类型:数字(num)、字符串(str)、字典(dic)t、元组(Tuple)、列表list)

 

数字(num):int(有符号整数),long(长整数);float(浮点型),complex(复数),布尔值(bool):Ture, False;

 

字典、元组、列表属于高级数据类型,也是数据结构

可以用type关键字查看变量的数据类型

print(type(变量))

[展开全文]

Pycharm: 适用于专业开发人员的Python IDE, 提高代码质量,编写整洁和可维护的代码,而IDE可以帮助通过PEP8检查,测试帮助,智能重构和一系列检查来保持质量。Pycharm是程序员为程序员设计的。

1、智能Python辅助;

2、Web开发框架;

3、科学计算的工具;

4、跨技术开发;

5、远程开发能力;

6、内建开发者工具;

 

左侧:资源结构区

右侧:代码编写区

上方:菜单功能区

下方:结果展示

 

pycharm的优点

节省时间和精力,目的就是让开发者更加的快捷方便,通过提供的工具和各种性能来帮助开发者组织资源,减少失误;

建立开发标准,

[展开全文]

什么是注释?

注释是编写程序时,写程序的人给一个语句、程序段、函数等的解释或提示。

 

注释的作用:

1、提高代码的可读性;提高开发效率,尤其对大型项目或者团队项目有重要的意义。

2、还可以进行代码的调试,ji一部分代码注释掉,对问题进行排查,进行完善

注释可以起到一个说明的作用,这个方法函数、变量到底是干嘛用的,如果没有注释,时间长了即使是自己可能都不知道这代码到底是干嘛用的。所以注释起到的作用就是方便自己查看写过的代码,别人来接收你的代码能看懂。简单来说就是能提高程序代码的可读性,以便于以后的参考、修改。

 

Python中单行注释用#号,#号邮编就是注释的内容,Python解析器遇到#号就会当做注释,不回去解析#号后面的内容

 

单行注释:用#号 注释可以用快捷键”command+/“,单行注释用一个井号就行。注释的内容不会被程序执行。

多行注释 在python中多行注释用'''或“”“,前后都要

 

特殊注释:

Python中有两句特殊的注释,在py文件首行#!/usr/bin/python3;

#--coding=utf-8--

这两句注释分别指的是指定python解析器的路径,指定python解析器的路径,指定编码格式,智能写在py文件最前面。

指定编码格式,一般用于python2版本,由于python2版本解析器默认Python采取ASCII编码,不支持中文。为了能在Python3版本的代码上写中文,如果需要兼容Python2版本,一般都加上指定编码格式这一行代码。

[展开全文]

学习操作基本的dos或者Mac系统的命令

[展开全文]

优点:

1、简单易学

解决业务问题,语法简单。

2、免费、开源

3、丰富的第三方库

4、可以移植

5、面向对象

 

缺点:

1、运行速度慢:

相较于C语言慢,C是编译型语言。

Python程序->解释器->CPU

 

4、全局解释器锁

[展开全文]

Python是一种面向对象的解释型计算机程序语言,由吉多、范罗萨姆开发,第一个公开发行版本发布于1991年。被称为胶水语言,能够把其他语言制作的各种模块很轻松的联结在一起。

思维->python->机器语言(010101)->计算机执行

解释器做的事情就是翻译工作

[展开全文]

机器学习模型=数据+算法

 

统计学习=模型+策略+算法

模型:规律 y=ax+b

 

损失函数=误差函数=目标函数

算法:如何高效找到最优参数

 

决策函数 或 条件概率分布

[展开全文]

半监督学习:一部分有类别标签,一部分没有类别标签

主动学习:依赖于人工打标签

聚类的假设:将有标记的样本和无标记的样本混合在一起,通过特征间的相似性,将样本分成若干个组或若干个簇;使得组内的相似性较大,组间的相异性较大,将样本点都进行分组,;此时分组点的样本点即包含了有类别标签的也包含了没有类别标签的,根据有类别标签的样本,按照少数服从多数的原则对没有加标记的样本添加标记。至此,所有未标记的数据都可以加以分配标记。

半监督学习转化为监督学习。

 

强化学习:解决连续决策问题。

为其可以是一个强化学习问题,需要学习在各种局势下如何走出最好的招法

迁移学习:小数据集:两个相关领域(解决数据适应性问题)

个性化

深度+强化+迁移

[展开全文]

数据分析的流程:

  1. 提出问题
  2. 准备数据
  3. 分析数据
  4. 获得结论
  5. 成果可视化
[展开全文]

机器学习个概念的理解:

数据集:

定义数据集的名称

行:样本或实例

列:特征或属性,最后一列(类别标签列,结果列)

特征、属性空间:有特征维数所张成的空间

>>特征向量:组成特征火属性空间中的样本点

>>特征值或属性值:组成特征向量中的值

 

[展开全文]

基于规则的学习:它是一种硬编码方式

X 自变量   定义域 特征

Y因变量    值域  结果

fx----f(对应关系)----->y(函数、映射、模型)

 

基于模型的学习:y=kx+b 寻求k和b的最佳值

通过数据构建机器学习模型,通过模型进行预测;

机器学习学的是模型中的k和

[展开全文]

GPU图形图像处理器(处理速度是CPU的10倍以上)

机器学习==CPU+GPU+数据+算法

机器学习:致力于研究如何通过计算(CPU和GPU计算)的手段,利用经验来改善(计算机)系统自身的性能

是人工智能的核心

从数据中产生或发现规律

数据+机器学习算法=机器学习模型

有了学习算法我们就可以把经验数据提供给他,他就能基于这些数据产生模型

 

如何判断问题是否为机器学习问题?

预测性的

[展开全文]

数据:观测值、感知值,测量值

信息:可信的数据

数据分析:对数据到信息的整理、筛选和加工的过程。

数据挖掘:对信息进行价值化的分析

用机器学习的方法进行数据挖掘。机器学习是一种方法,数据挖掘是一件事情;

 

 

[展开全文]

人工智能包括机器学习,机器学习包括深度学习

机器学习是人工智能落地的一个工具。

机器学习是人工智能的一个分支

深度学习是机器学习的一种方法,为了解决机器学习领域中图像识别等问题而提出的

[展开全文]

 

数据分层:

数据采集层、数据存储层、数据分析层、数据展示

数据采集层

用户访问日志数据,数据格式:地区吗|用户ip|目的ip|流量……;数据采集方式:采用fatp方式长传服务器;上传时间:每小时上传上一小时的数据;小文件合并:通过shell完成文件合并;监控文件:JNotify

用户的安全日志数据:

当用户触犯电信部门制定的只读、违反国家法律法规

数据采集方式用:Socket---C++完成数据采集,先缓存到内存再到磁盘;

数据格式:加密码:加密形式 abc:79217979web

网卡配置:千兆或万超网卡配置

 

数据存储层:HDFS分布式文件系统

 

数据分析层:用Mapreduce、Impala\Spark

1、完成数据清洗(缺失字段处理、异常值处理等

2、使用MR和Redis进行交互完成地区码201和地区名字的转换

3、使用MR处理好的数据进一步加载到Hive中做处理

4、试用MR将数据入库到HBASE完成固定条件查询

5、给到Spark中实时查询

 

机器学习层:

机器学习位于大数据上层,完成的是在大数据的数据存储和数据计算之上,通过数据结合机器学习算法建构机器学习模型,利用模型对现实时间做出预测

 

数据展示:Oracle+SSM

 

[展开全文]

电信日志分析:

描述:

  1. 以什么为基础计算:电信用户上网所产生的数据
  2. 数据主要来源:访问日志和安全日志
  3. 目的:异常IP的检测、关键词的过滤、违规违法用户的处理
  4. 方法:通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能实现
  5. 数据量:1T-20T左右
  6. 集群数量:10台-100台

项目架构分析:

  1. 数据采集层(千兆网卡以上):
    • 用户访问日志数据:数据格式;
      数据采集的方式:ftp
      数据上传时间
      小文件合并:shell(JNotify)
    • 用户安全日志数据:
      触发上传要求
      数据采集方式:socket--C++完成数据采集,缓存到内存磁盘
      数据格式:加密码加密形式
  2. 数据储存层:HDFS分布式文件系统
  3. 数据分析层:
    1. MapReduce:数据清洗
    2. HIVE
    3. hbase:固定条件查询
    4. impala:实时性较高的要求
    5. SPARK:解决单一数据源多指标在内存中的计算
    6. OOZIE:任务调度
    7. mysol:HIVE和oozie元数据存放
  4. 机器学习层:在大数据的存储和计算基础上,通过构建机器学习构建机器学习模型,对事实作出预判

项目优化:HDFS+SPARK一站式分析平台

[展开全文]

大数据的4V特征:

  1. 数据量大
  2. 数据种类多:
    结构化数据(mysql);
    非结构化数据(音频视频:HDFS/MR/HIVE);
    半结构化数据(XML/HTML: HDFS/MR/HIVE);
  3. 速度快:
    增长速度快
    处理速度快(实时、离线)
  4. 价值密度低
    价值密度=有价值的数据/ALL
    价值高
    机器学习算法解决问题
[展开全文]