问题一回答
任务类型:图像分割(划分大象和长颈鹿的活动区域)。
神经网络结构:
采用U-Net架构(编码器-解码器结构,适合图像分割任务)。
编码器(下采样):
4个卷积块,每块包含:
卷积层(3×3卷积核,ReLU激活)
最大池化层(2×2池化窗口)
通道数逐层翻倍:64 → 128 → 256 → 512。
解码器(上采样):
4个反卷积块,每块包含:
转置卷积层(2×2核,步长2,用于上采样)
跳跃连接(拼接编码器对应层的特征图)
卷积层(3×3卷积核,ReLU激活)
通道数逐层减半:512 → 256 → 128 → 64。
输出层:1×1卷积核,Sigmoid激活,生成二值分割掩膜。
隐藏层与神经元:
隐藏层总数为8个卷积层(编码器4层 + 解码器4层)。
每层神经元(通道数):64、128、256、512(编码器),对称减少(解码器)。
问题二回答
简化模型方案:
减少通道数:将编码器通道数改为 32 → 64 → 128 → 256,解码器对称减少。
减少层数:使用3层编码器+3层解码器(通道数32→64→128)。
添加正则化:在卷积后加入Dropout层(比例0.3),防止过拟合。
最优模型架构:
轻量U-Net变体:
编码器:3层(32→64→128通道),每层后接最大池化。
解码器:3层(128→64→32通道),使用转置卷积和跳跃连接。
输出层:1×1卷积 + Sigmoid。
总参数量减少50%+,但分割精度仍能保持90%以上(假设原模型95%)。
关键优化:
跳跃连接保留细节信息,弥补层数减少的损失。
Dropout提升泛化性,避免小模型过拟合。