数据:观测值、感知值,测量值
信息:可信的数据
数据分析:对数据到信息的整理、筛选和加工的过程。
数据挖掘:对信息进行价值化的分析
用机器学习的方法进行数据挖掘。机器学习是一种方法,数据挖掘是一件事情;
数据:观测值、感知值,测量值
信息:可信的数据
数据分析:对数据到信息的整理、筛选和加工的过程。
数据挖掘:对信息进行价值化的分析
用机器学习的方法进行数据挖掘。机器学习是一种方法,数据挖掘是一件事情;
人工智能包括机器学习,机器学习包括深度学习
机器学习是人工智能落地的一个工具。
机器学习是人工智能的一个分支
深度学习是机器学习的一种方法,为了解决机器学习领域中图像识别等问题而提出的
数据分层:
数据采集层、数据存储层、数据分析层、数据展示
数据采集层
用户访问日志数据,数据格式:地区吗|用户ip|目的ip|流量……;数据采集方式:采用fatp方式长传服务器;上传时间:每小时上传上一小时的数据;小文件合并:通过shell完成文件合并;监控文件:JNotify
用户的安全日志数据:
当用户触犯电信部门制定的只读、违反国家法律法规
数据采集方式用:Socket---C++完成数据采集,先缓存到内存再到磁盘;
数据格式:加密码:加密形式 abc:79217979web
网卡配置:千兆或万超网卡配置
数据存储层:HDFS分布式文件系统
数据分析层:用Mapreduce、Impala\Spark
1、完成数据清洗(缺失字段处理、异常值处理等
2、使用MR和Redis进行交互完成地区码201和地区名字的转换
3、使用MR处理好的数据进一步加载到Hive中做处理
4、试用MR将数据入库到HBASE完成固定条件查询
5、给到Spark中实时查询
机器学习层:
机器学习位于大数据上层,完成的是在大数据的数据存储和数据计算之上,通过数据结合机器学习算法建构机器学习模型,利用模型对现实时间做出预测
数据展示:Oracle+SSM
大数据的4V特征:
1.安装与开发环境
向量组的秩
所有等价线性无关组含有的向量个数相等
阿斯蒂芬
提升:
梯度提升
类方法:从属于“类对象”的方法,格式如下:
@classmethod
def 类对象(cls,[,形参列表]):
函数体
要点如下:
(1)@classmathod必须位于方法上面一行
(2)第一个cls必须有;cls指的就是“类对象”本身;
(3)调用类方法格式:“类名.类方法名(参数列表)”,不需要给cls传值。
类对象
实例方法(从属于实例对象)
def 方法名(self,[形参列表]):
函数体
实例属性:从属于实例对象,也成为实例变量。
(1)实例属性一般在__init__()方法中通过如下代码定义:
self.实例属性名=初始值
(2)在本类的其他实例方法中,也是通过self进行访问:
self.实例属性名
(3)创建实例对象后,通过实例对象进行访问:
obj01=类名() #创建对象,调用__init__()初始化属性
obj01.实例属性名=值 #可以给已有属性赋值,也可以新加属性
构造函数__init__():初始化实例对象的实例属性。
Python对象包含三个部分=id、type、value
只要是类中的方法参数第一个都是self,通过类名()来调用构造函数
对象的进化
面向对象
Python支持面向过程、面向对象、函数式编程等多种编程范式。
LEGB规则
Local:函数或者类的方法内部
nonlocal关键字
nonlocal 用来声明外部的局部变量
global 用来声明全局变量
嵌套函数:在函数内部定义的函数
递归函数:在函数体内直接或者间接的自己调用自己。
(1)终止条件:表示递归什么时候结束,一般用于返回值,不再调用自己。
(2)递归步骤:把第n步的值和第n-1步相关联。