- 机器学习的数据:文件 csv
- 不用mysql的原因:
1. 具有性能瓶颈、读取速度慢
2. 格式不符合机器学习要求数据的格式
- pandas:读取数据的工具
- numpy(读取速度快)
- 可用数据集:Kaggle、UCI、scikit-learn
- 常用数据集数据的结构组成:特征值 + 目标值(有些数据集没有目标值)
特征值(具体特征:身高/体重)->目标值(具体要达到的目的:如区分男女)
性能瓶颈,读取速度
格式不太符合机器学习要求数据的格式
可用数据集:
Kaggle
UCI
scikit-learn