3064-孙浩博-Python学科-数据分析-就业:是 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

基于规则的学习：它是一种硬编码方式

X 自变量定义域特征

Y因变量值域结果

fx----f(对应关系)----->y（函数、映射、模型）

基于模型的学习：y=kx+b 寻求k和b的最佳值

通过数据构建机器学习模型，通过模型进行预测；

机器学习学的是模型中的k和

[展开全文]

2525_Y_郝正伟 · 2021-12-29 · 自由式学习 0

GPU图形图像处理器（处理速度是CPU的10倍以上）

机器学习==CPU+GPU+数据+算法

机器学习：致力于研究如何通过计算（CPU和GPU计算）的手段，利用经验来改善（计算机）系统自身的性能

是人工智能的核心

从数据中产生或发现规律

数据+机器学习算法=机器学习模型

有了学习算法我们就可以把经验数据提供给他，他就能基于这些数据产生模型

如何判断问题是否为机器学习问题？

预测性的

[展开全文]

2525_Y_郝正伟 · 2021-12-29 · 自由式学习 0

数据：观测值、感知值，测量值

信息：可信的数据

数据分析：对数据到信息的整理、筛选和加工的过程。

数据挖掘：对信息进行价值化的分析

用机器学习的方法进行数据挖掘。机器学习是一种方法，数据挖掘是一件事情；

[展开全文]

2525_Y_郝正伟 · 2021-12-29 · 自由式学习 0

人工智能包括机器学习，机器学习包括深度学习

机器学习是人工智能落地的一个工具。

机器学习是人工智能的一个分支

深度学习是机器学习的一种方法，为了解决机器学习领域中图像识别等问题而提出的

[展开全文]

2525_Y_郝正伟 · 2021-12-29 · 自由式学习 0

数据分层：

数据采集层、数据存储层、数据分析层、数据展示

数据采集层

用户访问日志数据，数据格式：地区吗|用户ip|目的ip|流量……;数据采集方式：采用fatp方式长传服务器；上传时间：每小时上传上一小时的数据；小文件合并：通过shell完成文件合并；监控文件：JNotify

用户的安全日志数据：

当用户触犯电信部门制定的只读、违反国家法律法规

数据采集方式用：Socket---C++完成数据采集，先缓存到内存再到磁盘；

数据格式：加密码：加密形式 abc:79217979web

网卡配置：千兆或万超网卡配置

数据存储层：HDFS分布式文件系统

数据分析层：用Mapreduce、Impala\Spark

1、完成数据清洗（缺失字段处理、异常值处理等

2、使用MR和Redis进行交互完成地区码201和地区名字的转换

3、使用MR处理好的数据进一步加载到Hive中做处理

4、试用MR将数据入库到HBASE完成固定条件查询

5、给到Spark中实时查询

机器学习层：

机器学习位于大数据上层，完成的是在大数据的数据存储和数据计算之上，通过数据结合机器学习算法建构机器学习模型，利用模型对现实时间做出预测

数据展示：Oracle+SSM

[展开全文]

2525_Y_郝正伟 · 2021-12-29 · 自由式学习 0

大数据的4V特征：

数据量大
数据种类多：
结构化数据（mysql）；
非结构化数据（音频视频：HDFS/MR/HIVE);
半结构化数据（XML/HTML: HDFS/MR/HIVE);
速度快:
增长速度快
处理速度快（实时、离线）
价值密度低
价值密度=有价值的数据/ALL
价值高
机器学习算法解决问题

[展开全文]

2523_Y_钟林宝 · 2021-12-26 · 自由式学习 0

连续[2:5,1:4]跳跃[[2,1],[3,5]]

[展开全文]

Dino · 2021-05-09 · 自由式学习 0

数据分析的流程:

提出问题
准备数据
分析数据
获得结论
成果可视化

[展开全文]

1535_N_calm_one · 2021-01-20 · 自由式学习 0

3064-孙浩博-Python学科-数据分析-就业:是 3064-孙浩博-Python学科-数据分析-就业:是 扫二维码继续学习 二维码时效为半小时

3064-孙浩博-Python学科-数据分析-就业:是 3064-孙浩博-Python学科-数据分析-就业:是扫二维码继续学习二维码时效为半小时