递归网络卷积网络结合(CNN+RNN)
1. CNN + RNN
CNN卷积神经网络 RNN递归神经网络
1.1 相同点:
- 都是传统神经网络的扩展 空间和时间扩展
- 前向计算产生结果,反向计算模型更新
- 每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接 深度和广度
注:梯度衰减: CNN ReLU不会衰减,
RNN U参数梯度会大于或者小于1
1.2 不同点:
- CNN空间扩展,神经元与特征卷积; RNN时间扩展,神经元与多个时间输出计算
- RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出
- CNN高级深度100+深度,RNN深度有限
1.2 组合意义
- 大量信息同时具备时间空间特性
- 带有图像的对话,文本表达更具体
- 视频相对图片描述的内容更加完善
图片标注: CNN特征提取,用于RNN语句生成
视频分类: RNN特征提取用于CNN内容分类
图片问答: CNN特征提取用于对话问答
1.3 组合方式实现
- 特征提取:LSTM输出,FC层输出
- 特征合并:Concatenate层,Attention相乘
- 结果输出:连续语句输出LSTM,组合分类回归DNN(深度神经网络)
2. 图片标注
2.1 问题描述:有图片及标注信息,想要的模型是给图片,机器学习给标注
- CNN网络中全连接层特征描述图片,特征与LSTM进行结构组合
2.2 模型设计 - 数据准备
- 图片CNN特征提取
- 图片标注生成Word2Vect向量
- 生成训练数据:图片特征+第n单词向量:第n+1单词向量
2.3 模型设计
- 运用迁移学习,CNN特征,语句特征应用已有模型
- 最终输出模型是LSTM,训练过程参数设定:梯度上限,学习率调整
- 训练时间很长
2.4 模型运行
- CNN特征提取
- CNN特征+语句开头,单词逐个预测
2.5 图片标注升级- 详细标注
Loss:目标探测loss 目标识别loss 区域标注loss
训练方式:end-to-end
开放性探测识别
3. 视频行为识别
3.1. CNN特征简单组合
3.2. 3D版本CNN
图像特征的前后关系没有很好的区别
- CNN特征提取
- LSTM判断
- 多次识别结果分析
4. 图片/视频问答
4.1 图片问答的意义
- 是对纯文本语言问答系统的扩展
- 图片理解和语言处理的深度融合
- 提高人工智能能应用范围- 观察,思考,表达
4.2 方法流程
- 按照语言问答流程解决
- 图片特征同语言特征融合
- 训练数据: 问题 + 图片 + 答案
FCN